TL;DR
- GPT = Generative Pre-trained Transformer. Trois mots, trois concepts fondamentaux.
- LLM, NLP, RLHF, RAG, MCP, CoT, MoE -- chaque acronyme cache un concept précis que tu peux comprendre en une phrase.
- Cet article est un dictionnaire vivant : chaque terme est expliqué avec ce qu'il signifie, pourquoi il existe, et quand tu le croiseras.
- Pas besoin de tout retenir. Garde cet article en bookmark pour la prochaine fois qu'un acronyme te bloque.
L'IA a un problème d'acronymes
Tu lis un article sur l'IA. En trois paragraphes, tu croises GPT, LLM, NLP, RLHF, SLM, MoE, RAG, et CoT. Tu fais semblant de comprendre. On fait tous ça.
Le problème, c'est que derrière chaque acronyme se cache un concept réel, utile, et souvent simple. Mais la communauté IA adore les abréviations. C'est un réflexe académique : les papers sont écrits pour d'autres chercheurs, pas pour des devs qui veulent juste comprendre de quoi on parle.
Cet article décode tout. Chaque acronyme, expliqué en clair, avec une phrase de résumé et le contexte dans lequel tu le croiseras. On commence par les fondamentaux et on descend vers les plus techniques.
Les fondamentaux
NLP -- Natural Language Processing
Ce que ça veut dire : traitement automatique du langage naturel.
En une phrase : le champ de l'informatique qui s'occupe de faire comprendre et générer du langage humain aux machines.
Le NLP existe depuis les années 1950. Avant les LLM, ça incluait des techniques comme le TF-IDF, le word2vec, les arbres syntaxiques. Aujourd'hui, quand quelqu'un dit "NLP", il pense souvent LLM, mais le domaine est bien plus large.
Tu croiseras ce terme dans les offres d'emploi ("NLP engineer"), les conférences, et les descriptions de produit.
LLM -- Large Language Model
Ce que ça veut dire : grand modèle de langage.
En une phrase : un réseau de neurones avec des milliards de paramètres, entraîné sur des quantités massives de texte, capable de comprendre et générer du langage.
GPT-4, Claude, Llama, Gemini, Mistral -- ce sont tous des LLM. Le "Large" fait référence au nombre de paramètres (de quelques milliards à des centaines de milliards). C'est le terme générique qui englobe tous les modèles de langage modernes.
SLM -- Small Language Model
Ce que ça veut dire : petit modèle de langage.
En une phrase : un LLM optimisé pour tourner avec moins de ressources, typiquement sous les 10 milliards de paramètres.
Phi-3 (Microsoft), Gemma (Google), Llama 3.2 1B/3B. Les SLM sont conçus pour tourner sur un téléphone, un laptop, ou un edge device. Moins puissants que les LLM, mais suffisants pour beaucoup de tâches spécifiques.
L'architecture
Transformer
Ce que ça veut dire : une architecture de réseau de neurones basée sur le mécanisme d'attention.
En une phrase : l'architecture publiée en 2017 dans "Attention Is All You Need" qui est devenue la base de tous les LLM modernes.
Le Transformer a remplacé les RNN et LSTM parce qu'il peut traiter tous les tokens en parallèle (au lieu de séquentiellement) et capturer les relations longue distance grâce à l'attention. C'est le "T" de GPT et de BERT.
GPT -- Generative Pre-trained Transformer
Ce que ça veut dire : Transformer génératif pré-entraîné.
Trois mots, trois concepts :
- Generative : le modèle génère du texte (par opposition à BERT qui analyse du texte existant).
- Pre-trained : le modèle est d'abord entraîné sur un corpus massif de texte général (pré-entraînement), avant d'être affiné pour une tâche spécifique.
- Transformer : l'architecture sous-jacente.
GPT est à la fois le nom d'une famille de modèles (GPT-1 à GPT-4o) et un acronyme technique. Quand quelqu'un dit "GPT", il parle souvent de ChatGPT (le produit d'OpenAI), pas de l'architecture en général.
BERT -- Bidirectional Encoder Representations from Transformers
Ce que ça veut dire : représentations d'encodeur bidirectionnel à partir de Transformers.
En une phrase : un modèle de Google (2018) qui lit le texte dans les deux sens pour mieux comprendre le contexte.
La différence clé avec GPT : BERT est bidirectionnel (il voit les mots avant ET après pour comprendre un mot), GPT est unidirectionnel (il ne voit que ce qui précède). BERT est excellent pour la classification de texte, la recherche, et l'extraction d'information. GPT est meilleur pour la génération.
Tu croises BERT dans les moteurs de recherche (Google l'utilise), les pipelines NLP, et les systèmes de embedding.
L'entraînement
Fine-tuning
Ce que ça veut dire : affinage.
En une phrase : adapter un modèle pré-entraîné à une tâche spécifique en le ré-entraînant sur un petit jeu de données ciblé.
Le fine-tuning est ce qui transforme un modèle généraliste en un modèle spécialisé. Tu prends GPT-4, tu le fine-tunes sur tes données médicales, et tu obtiens un modèle meilleur pour répondre à des questions médicales.
LoRA -- Low-Rank Adaptation
Ce que ça veut dire : adaptation de rang faible.
En une phrase : une technique qui permet de fine-tuner un LLM en ne modifiant qu'une petite fraction des paramètres, réduisant drastiquement le coût.
LoRA est devenu la méthode standard de fine-tuning pour les modèles open-source. Au lieu de modifier les milliards de paramètres du modèle, tu ajoutes de petites matrices d'adaptation. Résultat : un fine-tuning qui prend des heures au lieu de jours, sur un seul GPU au lieu de dizaines.
RLHF -- Reinforcement Learning from Human Feedback
Ce que ça veut dire : apprentissage par renforcement à partir de retours humains.
En une phrase : la technique qui transforme un modèle de complétion de texte en assistant utile, en utilisant les évaluations humaines comme signal d'entraînement.
Le RLHF est ce qui fait la différence entre GPT-3 (qui complétait du texte de façon imprévisible) et ChatGPT (qui répond poliment à tes questions). Des humains évaluent les réponses du modèle, un modèle de récompense apprend leurs préférences, et le LLM est entraîné pour maximiser cette récompense.
Quantization
Ce que ça veut dire : réduction de la précision numérique des poids du modèle.
En une phrase : rendre un modèle plus petit et plus rapide en passant ses poids de 32 bits à 8, 4, ou même 2 bits.
La quantization est ce qui permet de faire tourner Llama 70B sur un MacBook. Tu perds un peu de qualité (souvent imperceptible), mais tu divises la mémoire requise par 4 à 8. Les formats courants : GGUF (llama.cpp), GPTQ, AWQ.
Les techniques d'utilisation
Prompt Engineering
Ce que ça veut dire : l'art de formuler des instructions pour un LLM.
Le prompt engineering n'est pas de la magie. C'est de la communication structurée. Tu donnes au modèle un contexte clair, des exemples, et des contraintes. La qualité de ta sortie dépend directement de la qualité de ton entrée.
Few-shot
Ce que ça veut dire : donner quelques exemples au modèle dans le prompt.
Le few-shot learning, c'est quand tu montres 2-5 exemples de ce que tu veux dans le prompt. Le modèle s'adapte sans aucun entraînement. "Zero-shot" = pas d'exemple. "Few-shot" = quelques exemples. "Many-shot" = beaucoup d'exemples.
System Prompt
Ce que ça veut dire : l'instruction donnée au modèle avant la conversation de l'utilisateur.
Le system prompt définit le comportement, le ton, et les contraintes du modèle. C'est là que tu dis "Tu es un assistant spécialisé en droit français, tu réponds en français, tu cites tes sources."
CoT -- Chain-of-Thought
Ce que ça veut dire : chaîne de pensée.
En une phrase : une technique qui demande au modèle de raisonner étape par étape avant de donner sa réponse finale.
Le Chain-of-Thought améliore drastiquement les performances sur les tâches de raisonnement. Au lieu de "quelle est la réponse ?", tu demandes "raisonne étape par étape, puis donne ta réponse". Simple, mais efficace.
ToT -- Tree-of-Thought
Ce que ça veut dire : arbre de pensée.
Le Tree-of-Thought étend le CoT en explorant plusieurs chemins de raisonnement en parallèle, comme un arbre de décision. Le modèle évalue chaque branche et choisit la meilleure. Plus coûteux que le CoT, mais plus fiable pour les problèmes complexes.
L'écosystème applicatif
RAG -- Retrieval-Augmented Generation
Ce que ça veut dire : génération augmentée par la recherche.
En une phrase : au lieu de tout mettre dans le prompt, tu cherches les informations pertinentes dans une base de données et tu les injectes dans le contexte du modèle.
Le RAG résout le problème des hallucinations et des connaissances obsolètes. Le modèle ne se fie pas à sa mémoire d'entraînement : il travaille avec les documents que tu lui fournis. C'est la technique standard pour les chatbots d'entreprise.
Function Calling / Tool Use
Ce que ça veut dire : la capacité d'un LLM à appeler des fonctions externes.
Le function calling transforme un LLM en outil connecté. Le modèle reçoit la description de fonctions disponibles, et quand il a besoin d'information ou d'action, il génère un appel structuré. Le système hôte exécute la fonction et renvoie le résultat.
MCP -- Model Context Protocol
Ce que ça veut dire : protocole de contexte pour modèles.
Le MCP est un standard ouvert (créé par Anthropic) pour connecter les LLM à des sources de données et des outils. Au lieu que chaque outil implémente sa propre intégration, MCP fournit un protocole universel. Un serveur MCP, n'importe quel client compatible.
Vector DB -- Base de données vectorielle
Ce que ça veut dire : une base de données optimisée pour stocker et rechercher des vecteurs (embeddings).
Les bases vectorielles (Pinecone, Weaviate, Qdrant, pgvector) sont le stockage standard pour le RAG. Tu convertis tes documents en vecteurs via un modèle d'embedding, tu les stockes, et tu fais des recherches par similarité sémantique.
MoE -- Mixture of Experts
Ce que ça veut dire : mélange d'experts.
En une phrase : une architecture où le modèle a plusieurs "sous-réseaux" spécialisés, et un routeur choisit lesquels activer pour chaque token.
MoE permet d'avoir un modèle très large (beaucoup de paramètres au total) tout en n'activant qu'une fraction à chaque inférence. Mistral Mixtral et GPT-4 utilisent cette architecture. Résultat : performances de grand modèle avec un coût d'inférence de petit modèle.
Les concepts avancés
AGI -- Artificial General Intelligence
Ce que ça veut dire : intelligence artificielle générale.
L'IA qui peut faire tout ce qu'un humain fait intellectuellement. On n'y est pas. C'est l'objectif affiché de certains labos (OpenAI, DeepMind). Le terme est controversé parce que personne ne s'accorde sur la définition exacte.
ASI -- Artificial Superintelligence
Ce que ça veut dire : intelligence artificielle surhumaine.
L'IA qui dépasse l'intelligence humaine dans tous les domaines. Encore plus théorique que l'AGI. Mentionné dans les discussions sur la sécurité de l'IA et l'alignement.
Multimodal
Ce que ça veut dire : un modèle qui traite plusieurs types de données (texte, images, audio, vidéo).
Les modèles multimodaux comme GPT-4o, Claude 3.5, et Gemini comprennent à la fois le texte et les images. Certains génèrent aussi des images ou de l'audio. C'est la direction dans laquelle tous les gros labos avancent.
Guardrails
Ce que ça veut dire : des garde-fous qui contrôlent le comportement d'un LLM.
Les guardrails empêchent le modèle de générer du contenu dangereux, de fuiter des données sensibles, ou de s'écarter de sa tâche. Ça peut être du filtrage de contenu, de la validation de format, ou des règles métier appliquées sur les entrées/sorties.
Le mémo
| Acronyme | Signification | En un mot |
|---|---|---|
| NLP | Natural Language Processing | Le domaine |
| LLM | Large Language Model | Le modèle |
| SLM | Small Language Model | Le modèle compact |
| GPT | Generative Pre-trained Transformer | L'architecture OpenAI |
| BERT | Bidirectional Encoder Representations | L'architecture Google |
| RLHF | Reinforcement Learning from Human Feedback | L'alignement |
| LoRA | Low-Rank Adaptation | Le fine-tuning malin |
| RAG | Retrieval-Augmented Generation | La recherche + génération |
| MCP | Model Context Protocol | Le protocole d'outils |
| CoT | Chain-of-Thought | Le raisonnement étape par étape |
| ToT | Tree-of-Thought | Le raisonnement en arbre |
| MoE | Mixture of Experts | L'architecture modulaire |
| AGI | Artificial General Intelligence | Le Graal |
Garde cette page en bookmark. La prochaine fois qu'un acronyme te bloque, tu sauras où chercher.
Ressources
- Attention Is All You Need (2017) -- le paper fondateur du Transformer
- BERT Paper (2018) -- le paper original de BERT
- LoRA Paper (2021) -- l'article qui a démocratisé le fine-tuning accessible
- Model Context Protocol (Anthropic) -- la spécification officielle du MCP
- Hugging Face Glossary -- glossaire technique maintenu par Hugging Face
- Stanford CS324 - LLM Course -- cours académique sur les LLM