📚 Documentation du SLM Lam-5 🚀

lam-5

✨ Présentation Générale

Lam-5 est un Small Language Model (Petit Modèle de Langage) spécialisé en Question/Réponse (Q/A). Il est le fruit de la recherche fondamentale menée par Clemylia et l'organisation indépendante LES-IA-ETOILES.

Contrairement aux modèles de grande taille, Lam-5 utilise une architecture optimisée pour être légère, rapide et performante sur des jeux de données spécifiques et des contraintes de ressources.

Caractéristique Détail
Nom du Modèle Lam-5
Architecte Créatrice Clemylia (LES-IA-ETOILES)
Architecture de Base Aricate v4 (Propriétaire)
Type de Modèle Sequence-to-Sequence (Seq2Seq)
Licence de Distribution MIT
Idéal pour Chatbots Q/A légers, périphériques à faible consommation.

🏗️ L'Architecture Aricate v4 : La Révolution de la Cohérence

Lam-5 est bâti sur l'architecture Aricate v4, qui combine des concepts d'apprentissage profond éprouvés avec une solution innovante aux problèmes de langage des petits modèles.

1. Le Noyau Séquentiel (GRU)

Aricate utilise le réseau de neurones récurrents GRU (Gated Recurrent Unit) comme encodeur/décodeur principal.

  • Légèreté : Les GRU sont notoirement plus rapides à entraîner et moins gourmands en VRAM que l'architecture Transformer.
  • Mémoire : Ils traitent la séquence mot par mot, maintenant un état caché qui représente la "mémoire" du contexte à un instant donné.

2. Le Mécanisme d'Attention Additive (Bahdanau)

Pour garantir que le modèle ne perde pas le fil des questions longues, Aricate utilise l'Attention Additive (Bahdanau).

  • Lors de la génération de la réponse, le mécanisme d'Attention revient en arrière pour peser l'importance de chaque mot de la question d'entrée.
  • Ceci permet de créer un vecteur de contexte précis, améliorant considérablement la pertinence des réponses.

3. La Prédiction du Mot Entier 🧠 (Innovation Clé)

C'est l'innovation majeure d'Aricate, conçue pour éviter les incohérences de sub-word ou token observées dans les petits Transformers sous-entraînés :

  • Méthode : Lam-5 est configuré pour prédire le mot suivant au lieu du token suivant.
  • Avantage : Ceci garantit que toutes les générations de Lam-5 sont composées de mots complets, bien formés et en français correct, même lorsque la sémantique est encore en cours d'affinage (en phase d'entraînement).

📚 Entraînement et Données

Lam-5, comme ses prédécesseurs, est un modèle créé de zéro (from scratch) par Clemylia.

Entraîné sur des paires Question/Réponse de la dataset Clem27sey/Nacid.

Statut Actuel : Lam-5 (et l'architecture Aricate) excelle dans la cohérence grammaticale, mais son corpus d'entraînement étant petit, il peut encore manifester des incohérences sémantiques (hallucinations ou réponses hors sujet).


⚙️ Déploiement et Utilisation

Lam-5 est conçu pour être facilement déployé et utilisé via Python ou des outils d'inférence standards.

Stratégie de Génération

Lam-5 utilise la Beam Search par défaut pour garantir que les réponses générées sont de la plus haute qualité et de la meilleure probabilité cumulative.

Utilisation Recommandée

Pour obtenir les meilleures réponses, il est conseillé de tester différents paramètres de génération :

Paramètre Recommandation But
Beam Size 3 à 5 Maintenir la haute qualité et la cohérence.
Temperature (T) 0.5 à 0.7 Rendre le modèle précis, tout en évitant la répétition.
Top-K Sampling 10 à 30 Pour introduire une légère diversité si la réponse est trop figée.

🌟 Perspectives Futures

L'architecture Aricate v4 continuera d'être un pilier de l'innovation au sein de LES-IA-ETOILES. Des travaux futurs incluront l'augmentation de la taille du modèle Aricate et l'entraînement sur des datasets Q/A plus riches pour améliorer significativement la précision sémantique et la généralisation.

Pour un exemple d'inférence merci d'aller voir le readme de Lam-2, ou utiliser le space de demo de Lam-5 directement

nous ne sommes pas responsable en cas d'hallucinations de propos dangereux du modèle. cest a vous de faire la part des choses.

Fichier quantifier de Lam-5 : lam-5_arica_quantized.arica (présent juste à côté des poids de Lam-5 dans son dépôt)

Downloads last month
50
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train Clemylia/LAM-5

Space using Clemylia/LAM-5 1

Collections including Clemylia/LAM-5

Evaluation results