Que veut dire GPT ? (et BERT, LLM, NLP...)

TL;DR

GPT = Generative Pre-trained Transformer. Trois mots, trois concepts fondamentaux.

LLM, NLP, RLHF, RAG, MCP, CoT, MoE -- chaque acronyme cache un concept précis que tu peux comprendre en une phrase.

Cet article est un dictionnaire vivant : chaque terme est expliqué avec ce qu'il signifie, pourquoi il existe, et quand tu le croiseras.

Pas besoin de tout retenir. Garde cet article en bookmark pour la prochaine fois qu'un acronyme te bloque.

L'IA a un problème d'acronymes

Tu lis un article sur l'IA. En trois paragraphes, tu croises GPT, LLM, NLP, RLHF, SLM, MoE, RAG, et CoT. Tu fais semblant de comprendre. On fait tous ça.

Le problème, c'est que derrière chaque acronyme se cache un concept réel, utile, et souvent simple. Mais la communauté IA adore les abréviations. C'est un réflexe académique : les papers sont écrits pour d'autres chercheurs, pas pour des devs qui veulent juste comprendre de quoi on parle.

Cet article décode tout. Chaque acronyme, expliqué en clair, avec une phrase de résumé et le contexte dans lequel tu le croiseras. On commence par les fondamentaux et on descend vers les plus techniques.

◆ ◆ ◆

Les fondamentaux

NLP -- Natural Language Processing

Ce que ça veut dire : traitement automatique du langage naturel.

En une phrase : le champ de l'informatique qui s'occupe de faire comprendre et générer du langage humain aux machines.

Le NLP existe depuis les années 1950. Avant les LLM, ça incluait des techniques comme le TF-IDF, le word2vec, les arbres syntaxiques. Aujourd'hui, quand quelqu'un dit "NLP", il pense souvent LLM, mais le domaine est bien plus large.

Tu croiseras ce terme dans les offres d'emploi ("NLP engineer"), les conférences, et les descriptions de produit.

LLM -- Large Language Model

Ce que ça veut dire : grand modèle de langage.

En une phrase : un réseau de neurones avec des milliards de paramètres, entraîné sur des quantités massives de texte, capable de comprendre et générer du langage.

GPT-4, Claude, Llama, Gemini, Mistral -- ce sont tous des LLM. Le "Large" fait référence au nombre de paramètres (de quelques milliards à des centaines de milliards). C'est le terme générique qui englobe tous les modèles de langage modernes.

SLM -- Small Language Model

Ce que ça veut dire : petit modèle de langage.

En une phrase : un LLM optimisé pour tourner avec moins de ressources, typiquement sous les 10 milliards de paramètres.

Phi-3 (Microsoft), Gemma (Google), Llama 3.2 1B/3B. Les SLM sont conçus pour tourner sur un téléphone, un laptop, ou un edge device. Moins puissants que les LLM, mais suffisants pour beaucoup de tâches spécifiques.

◆ ◆ ◆

L'architecture

Transformer

Ce que ça veut dire : une architecture de réseau de neurones basée sur le mécanisme d'attention.

En une phrase : l'architecture publiée en 2017 dans "Attention Is All You Need" qui est devenue la base de tous les LLM modernes.

Le Transformer a remplacé les RNN et LSTM parce qu'il peut traiter tous les tokens en parallèle (au lieu de séquentiellement) et capturer les relations longue distance grâce à l'attention. C'est le "T" de GPT et de BERT.

GPT -- Generative Pre-trained Transformer

Ce que ça veut dire : Transformer génératif pré-entraîné.

Trois mots, trois concepts :

Generative : le modèle génère du texte (par opposition à BERT qui analyse du texte existant).
Pre-trained : le modèle est d'abord entraîné sur un corpus massif de texte général (pré-entraînement), avant d'être affiné pour une tâche spécifique.
Transformer : l'architecture sous-jacente.

GPT est à la fois le nom d'une famille de modèles (GPT-1 à GPT-4o) et un acronyme technique. Quand quelqu'un dit "GPT", il parle souvent de ChatGPT (le produit d'OpenAI), pas de l'architecture en général.

BERT -- Bidirectional Encoder Representations from Transformers

Ce que ça veut dire : représentations d'encodeur bidirectionnel à partir de Transformers.

En une phrase : un modèle de Google (2018) qui lit le texte dans les deux sens pour mieux comprendre le contexte.

La différence clé avec GPT : BERT est bidirectionnel (il voit les mots avant ET après pour comprendre un mot), GPT est unidirectionnel (il ne voit que ce qui précède). BERT est excellent pour la classification de texte, la recherche, et l'extraction d'information. GPT est meilleur pour la génération.

Tu croises BERT dans les moteurs de recherche (Google l'utilise), les pipelines NLP, et les systèmes de embedding.

◆ ◆ ◆

L'entraînement

Fine-tuning

Ce que ça veut dire : affinage.

En une phrase : adapter un modèle pré-entraîné à une tâche spécifique en le ré-entraînant sur un petit jeu de données ciblé.

Le fine-tuning est ce qui transforme un modèle généraliste en un modèle spécialisé. Tu prends GPT-4, tu le fine-tunes sur tes données médicales, et tu obtiens un modèle meilleur pour répondre à des questions médicales.

LoRA -- Low-Rank Adaptation

Ce que ça veut dire : adaptation de rang faible.

En une phrase : une technique qui permet de fine-tuner un LLM en ne modifiant qu'une petite fraction des paramètres, réduisant drastiquement le coût.

LoRA est devenu la méthode standard de fine-tuning pour les modèles open-source. Au lieu de modifier les milliards de paramètres du modèle, tu ajoutes de petites matrices d'adaptation. Résultat : un fine-tuning qui prend des heures au lieu de jours, sur un seul GPU au lieu de dizaines.

RLHF -- Reinforcement Learning from Human Feedback

Ce que ça veut dire : apprentissage par renforcement à partir de retours humains.

En une phrase : la technique qui transforme un modèle de complétion de texte en assistant utile, en utilisant les évaluations humaines comme signal d'entraînement.

Le RLHF est ce qui fait la différence entre GPT-3 (qui complétait du texte de façon imprévisible) et ChatGPT (qui répond poliment à tes questions). Des humains évaluent les réponses du modèle, un modèle de récompense apprend leurs préférences, et le LLM est entraîné pour maximiser cette récompense.

Quantization

Ce que ça veut dire : réduction de la précision numérique des poids du modèle.

En une phrase : rendre un modèle plus petit et plus rapide en passant ses poids de 32 bits à 8, 4, ou même 2 bits.

La quantization est ce qui permet de faire tourner Llama 70B sur un MacBook. Tu perds un peu de qualité (souvent imperceptible), mais tu divises la mémoire requise par 4 à 8. Les formats courants : GGUF (llama.cpp), GPTQ, AWQ.

◆ ◆ ◆

Les techniques d'utilisation

Prompt Engineering

Ce que ça veut dire : l'art de formuler des instructions pour un LLM.

Le prompt engineering n'est pas de la magie. C'est de la communication structurée. Tu donnes au modèle un contexte clair, des exemples, et des contraintes. La qualité de ta sortie dépend directement de la qualité de ton entrée.

Few-shot

Ce que ça veut dire : donner quelques exemples au modèle dans le prompt.

Le few-shot learning, c'est quand tu montres 2-5 exemples de ce que tu veux dans le prompt. Le modèle s'adapte sans aucun entraînement. "Zero-shot" = pas d'exemple. "Few-shot" = quelques exemples. "Many-shot" = beaucoup d'exemples.

System Prompt

Ce que ça veut dire : l'instruction donnée au modèle avant la conversation de l'utilisateur.

Le system prompt définit le comportement, le ton, et les contraintes du modèle. C'est là que tu dis "Tu es un assistant spécialisé en droit français, tu réponds en français, tu cites tes sources."

CoT -- Chain-of-Thought

Ce que ça veut dire : chaîne de pensée.

En une phrase : une technique qui demande au modèle de raisonner étape par étape avant de donner sa réponse finale.

Le Chain-of-Thought améliore drastiquement les performances sur les tâches de raisonnement. Au lieu de "quelle est la réponse ?", tu demandes "raisonne étape par étape, puis donne ta réponse". Simple, mais efficace.

ToT -- Tree-of-Thought

Ce que ça veut dire : arbre de pensée.

Le Tree-of-Thought étend le CoT en explorant plusieurs chemins de raisonnement en parallèle, comme un arbre de décision. Le modèle évalue chaque branche et choisit la meilleure. Plus coûteux que le CoT, mais plus fiable pour les problèmes complexes.

◆ ◆ ◆

L'écosystème applicatif

RAG -- Retrieval-Augmented Generation

Ce que ça veut dire : génération augmentée par la recherche.

En une phrase : au lieu de tout mettre dans le prompt, tu cherches les informations pertinentes dans une base de données et tu les injectes dans le contexte du modèle.

Le RAG résout le problème des hallucinations et des connaissances obsolètes. Le modèle ne se fie pas à sa mémoire d'entraînement : il travaille avec les documents que tu lui fournis. C'est la technique standard pour les chatbots d'entreprise.

Function Calling / Tool Use

Ce que ça veut dire : la capacité d'un LLM à appeler des fonctions externes.

Le function calling transforme un LLM en outil connecté. Le modèle reçoit la description de fonctions disponibles, et quand il a besoin d'information ou d'action, il génère un appel structuré. Le système hôte exécute la fonction et renvoie le résultat.

MCP -- Model Context Protocol

Ce que ça veut dire : protocole de contexte pour modèles.

Le MCP est un standard ouvert (créé par Anthropic) pour connecter les LLM à des sources de données et des outils. Au lieu que chaque outil implémente sa propre intégration, MCP fournit un protocole universel. Un serveur MCP, n'importe quel client compatible.

Vector DB -- Base de données vectorielle

Ce que ça veut dire : une base de données optimisée pour stocker et rechercher des vecteurs (embeddings).

Les bases vectorielles (Pinecone, Weaviate, Qdrant, pgvector) sont le stockage standard pour le RAG. Tu convertis tes documents en vecteurs via un modèle d'embedding, tu les stockes, et tu fais des recherches par similarité sémantique.

MoE -- Mixture of Experts

Ce que ça veut dire : mélange d'experts.

En une phrase : une architecture où le modèle a plusieurs "sous-réseaux" spécialisés, et un routeur choisit lesquels activer pour chaque token.

MoE permet d'avoir un modèle très large (beaucoup de paramètres au total) tout en n'activant qu'une fraction à chaque inférence. Mistral Mixtral et GPT-4 utilisent cette architecture. Résultat : performances de grand modèle avec un coût d'inférence de petit modèle.

◆ ◆ ◆

Les concepts avancés

AGI -- Artificial General Intelligence

Ce que ça veut dire : intelligence artificielle générale.

L'IA qui peut faire tout ce qu'un humain fait intellectuellement. On n'y est pas. C'est l'objectif affiché de certains labos (OpenAI, DeepMind). Le terme est controversé parce que personne ne s'accorde sur la définition exacte.

ASI -- Artificial Superintelligence

Ce que ça veut dire : intelligence artificielle surhumaine.

L'IA qui dépasse l'intelligence humaine dans tous les domaines. Encore plus théorique que l'AGI. Mentionné dans les discussions sur la sécurité de l'IA et l'alignement.

Multimodal

Ce que ça veut dire : un modèle qui traite plusieurs types de données (texte, images, audio, vidéo).

Les modèles multimodaux comme GPT-4o, Claude 3.5, et Gemini comprennent à la fois le texte et les images. Certains génèrent aussi des images ou de l'audio. C'est la direction dans laquelle tous les gros labos avancent.

Guardrails

Ce que ça veut dire : des garde-fous qui contrôlent le comportement d'un LLM.

Les guardrails empêchent le modèle de générer du contenu dangereux, de fuiter des données sensibles, ou de s'écarter de sa tâche. Ça peut être du filtrage de contenu, de la validation de format, ou des règles métier appliquées sur les entrées/sorties.

◆ ◆ ◆

Le mémo

Acronyme	Signification	En un mot
NLP	Natural Language Processing	Le domaine
LLM	Large Language Model	Le modèle
SLM	Small Language Model	Le modèle compact
GPT	Generative Pre-trained Transformer	L'architecture OpenAI
BERT	Bidirectional Encoder Representations	L'architecture Google
RLHF	Reinforcement Learning from Human Feedback	L'alignement
LoRA	Low-Rank Adaptation	Le fine-tuning malin
RAG	Retrieval-Augmented Generation	La recherche + génération
MCP	Model Context Protocol	Le protocole d'outils
CoT	Chain-of-Thought	Le raisonnement étape par étape
ToT	Tree-of-Thought	Le raisonnement en arbre
MoE	Mixture of Experts	L'architecture modulaire
AGI	Artificial General Intelligence	Le Graal

Garde cette page en bookmark. La prochaine fois qu'un acronyme te bloque, tu sauras où chercher.

◆ ◆ ◆

Ressources

Attention Is All You Need (2017) -- le paper fondateur du Transformer
BERT Paper (2018) -- le paper original de BERT
LoRA Paper (2021) -- l'article qui a démocratisé le fine-tuning accessible
Model Context Protocol (Anthropic) -- la spécification officielle du MCP
Hugging Face Glossary -- glossaire technique maintenu par Hugging Face
Stanford CS324 - LLM Course -- cours académique sur les LLM

L'IA a un problème d'acronymes

Les fondamentaux

NLP -- Natural Language Processing

LLM -- Large Language Model

SLM -- Small Language Model

L'architecture

Transformer

GPT -- Generative Pre-trained Transformer

BERT -- Bidirectional Encoder Representations from Transformers

L'entraînement

Fine-tuning

LoRA -- Low-Rank Adaptation

RLHF -- Reinforcement Learning from Human Feedback

Quantization

Les techniques d'utilisation

Prompt Engineering

Few-shot

System Prompt

CoT -- Chain-of-Thought

ToT -- Tree-of-Thought

L'écosystème applicatif

RAG -- Retrieval-Augmented Generation

Function Calling / Tool Use

MCP -- Model Context Protocol

Vector DB -- Base de données vectorielle

MoE -- Mixture of Experts

Les concepts avancés

AGI -- Artificial General Intelligence

ASI -- Artificial Superintelligence

Multimodal

Guardrails

Le mémo

Ressources

Articles Similaires

Rattraper 3 ans d'IA en 8 semaines

Les agents IA ne sont pas du hype

RAG, MCP, function calling — le kit du dev en 2026