Glossaire IA
Tous les termes utilises dans mes articles, expliques simplement. Pas besoin d'un PhD pour comprendre l'IA.
Fondamentaux
LLM (Large Language Model)
Un Large Language Model est un reseau de neurones entraine sur d'enormes quantites de texte. Il predit le prochain mot (token) dans une sequence. GPT-4, Claude et Llama sont des LLM. Malgre leur simplicite conceptuelle (predire le mot suivant), ils emergent des capacites de raisonnement, de code et de creativite.
Transformer
Introduit dans le paper 'Attention Is All You Need' (2017), le Transformer est l'architecture derriere tous les LLM modernes. Contrairement aux reseaux recurrents (RNN), il traite tous les tokens simultanement grace au mecanisme d'attention, ce qui le rend parallelisable et plus performant sur le texte long.
Token / Tokenization
Les LLM ne lisent pas du texte brut. Le texte est d'abord decoupe en tokens (sous-mots) via un algorithme comme BPE (Byte Pair Encoding). 'Bonjour' peut devenir [Bon, jour]. Le modele travaille avec ces tokens sous forme de nombres. La taille du vocabulaire (nombre de tokens possibles) est typiquement 30K-100K.
Embedding
Un embedding convertit un mot, une phrase ou un document en un vecteur de nombres (ex: 1536 dimensions). Les textes au sens similaire ont des vecteurs proches. C'est la base de la recherche semantique: au lieu de chercher des mots exacts, on cherche des sens proches. Utilise massivement dans le RAG et les vector databases.
Attention (mecanisme)
Le mecanisme d'attention permet a chaque token de 'regarder' tous les autres tokens du contexte pour comprendre les relations. Self-attention calcule des scores de pertinence entre tous les tokens. C'est ce qui permet au modele de comprendre que dans 'Le chat mange sa souris', 'sa' se rapporte au chat.
Pre-training
Premiere phase d'entrainement d'un LLM. Le modele ingere des teraoctets de texte (web, livres, code) et apprend a predire le token suivant. Cette phase coute des millions de dollars en GPU et dure des semaines/mois. Elle donne au modele sa connaissance generale du langage, des faits et du raisonnement.
Fine-tuning
Apres le pre-training, on peut specialiser un modele sur un domaine (medical, juridique, code) en le re-entrainant sur des donnees ciblees. Le fine-tuning complet est couteux. Des techniques legeres comme LoRA permettent d'adapter un modele avec peu de donnees et de compute.
RLHF
Reinforcement Learning from Human Feedback. Phase 3 de l'entrainement: des annotateurs humains classent les reponses du modele par qualite, et un modele de recompense est entraine pour guider le LLM. C'est ce qui transforme un modele brut (GPT-3, incoherent) en assistant utile (ChatGPT). Sans RLHF, les LLM sont techniques mais inutilisables.
Inference
L'inference est le moment ou le modele est utilise (pas entraine). Tu envoies un prompt, le modele genere des tokens un par un. Le cout d'inference est bien inferieur a l'entrainement mais s'accumule avec l'usage. Les tokens d'entree et de sortie sont factures separement par les APIs.
Context window
Le context window definit combien de tokens le modele peut 'voir' simultanement. GPT-3 avait 4K tokens (~3 pages). GPT-4 Turbo: 128K. Gemini 1.5: 1M tokens (~un livre entier). Plus la fenetre est grande, plus on peut donner de contexte au modele, mais le cout et la latence augmentent aussi.
Patterns pour devs
Prompt engineering
Le prompt engineering consiste a formuler ses demandes de maniere optimale. Techniques cles: system prompt (definir le role), few-shot (donner des exemples), chain-of-thought (demander de raisonner etape par etape). C'est la competence #1 pour travailler avec les LLM — 80% de la valeur vient de la qualite du prompt.
RAG (Retrieval-Augmented Generation)
Le RAG resout le probleme central des LLM: ils ne connaissent pas VOS donnees. Le principe: 1) Indexer vos documents en embeddings dans une vector DB. 2) Quand une question arrive, chercher les morceaux pertinents. 3) Les injecter dans le prompt. 4) Le modele repond avec ce contexte. C'est le pattern le plus utilise en entreprise.
Function calling / Tool use
Au lieu de juste repondre en texte, le modele peut decider d'appeler des fonctions que vous definissez: chercher dans une base, envoyer un email, creer un ticket. Vous decrivez les fonctions disponibles (nom, parametres, description) et le modele decide quand et comment les appeler. C'est le pont entre 'repondre' et 'agir'.
MCP (Model Context Protocol)
Le Model Context Protocol est un standard ouvert (lance par Anthropic fin 2024) qui definit comment un agent IA se connecte a des outils. Vous creez un serveur MCP qui expose des outils, et n'importe quel client compatible (Claude Desktop, Cursor, Zed) peut les utiliser. Un serveur = tous les clients. C'est l'interoperabilite qui manquait.
Vector database
Contrairement aux BDD classiques (recherche exacte par cle/SQL), les vector databases cherchent par similarite semantique. Vous stockez vos documents sous forme d'embeddings, et une requete retourne les documents les plus 'proches' en sens. Outils: Pinecone, Chroma, Weaviate, Qdrant. Essentielles pour le RAG.
Few-shot / Zero-shot
Zero-shot: vous demandez directement sans exemple. Few-shot: vous donnez 2-5 exemples du format attendu dans le prompt. Le modele imite le pattern. Technique simple mais puissante — souvent suffisante avant de passer au fine-tuning.
System prompt
Le system prompt est un message special place avant la conversation qui definit le role du modele ('Tu es un expert en...'), ses contraintes ('Reponds toujours en francais'), et son style. C'est le 'briefing' de l'assistant. Tous les produits IA commerciaux en utilisent un.
Raisonnement
Chain-of-thought (CoT)
Ajouter 'raisonne etape par etape' au prompt ameliore drastiquement les resultats sur les problemes de logique, math et code. Le modele decompose le probleme plutot que de repondre d'un coup. Les reasoning models (o1, Claude extended thinking) automatisent ce processus avec une 'reflexion interne' invisible.
Tree-of-thought (ToT)
Alors que le chain-of-thought suit un chemin lineaire, le tree-of-thought explore plusieurs branches simultanement: le modele genere plusieurs hypotheses, les evalue, et garde la meilleure. C'est plus couteux (plus de tokens) mais bien meilleur pour les problemes complexes avec plusieurs solutions possibles.
Reasoning model
Les reasoning models (OpenAI o1/o3, Claude avec extended thinking) prennent le temps de 'penser' — ils generent un raisonnement interne (souvent invisible) avant la reponse finale. Bien meilleurs que les LLM standards pour le code, les maths et la logique. Le compromis: plus lents et plus chers.
Extended thinking
Extended thinking est la version Anthropic des reasoning models. Claude prend du temps pour raisonner avant de repondre, et peut optionnellement montrer son 'processus de reflexion'. Similaire a o1 d'OpenAI mais avec plus de transparence sur le raisonnement.
Agents & systemes
Agent IA
Un agent IA est fondamentalement different d'un chatbot. Un chatbot repond (input->output). Un agent AGIT en boucle: il observe (lit le contexte), raisonne (planifie), agit (appelle des outils), et verifie (evalue le resultat). Si ca echoue, il recommence. Claude Code est un agent: il lit ton code, reflechit, edite, teste, corrige.
Boucle agentique
La boucle agentique est le pattern fondamental des agents IA: 1) Observer (lire fichiers, contexte). 2) Raisonner (planifier les etapes). 3) Agir (executer des outils). 4) Verifier (tester le resultat). Si le resultat est insatisfaisant, l'agent recommence. L'autonomie vient de cette capacite a iterer sans intervention humaine.
Multi-agent
Au lieu d'un seul agent generaliste, on decompose en agents specialises: un agent chercheur, un agent codeur, un agent reviewer. Ils communiquent et delegent entre eux. Frameworks: CrewAI, AutoGen, Anthropic Agent SDK. Le defi: coordination, coherence, et eviter les boucles infinies.
Hallucination
Les LLM 'hallucinent' quand ils inventent des faits, citations, URLs ou code qui n'existent pas, mais les presentent avec assurance. C'est une limitation fondamentale de la prediction de tokens. Le RAG, la verification automatique et les guardrails sont les principales strategies pour reduire les hallucinations.
Guardrails
Les guardrails sont des contraintes de securite pour les agents: limiter les actions autorisees, valider avant d'executer, interdire certaines operations (supprimer des fichiers, envoyer des emails). En production, un agent sans guardrails est dangereux — il peut halluciner et agir sur ses hallucinations.
A2A (Agent-to-Agent)
Agent-to-Agent est un protocole ouvert lance par Google qui standardise comment les agents IA communiquent entre eux. Si MCP connecte les agents aux outils, A2A connecte les agents entre eux. Un agent peut decouvrir les capacites d'un autre et lui deleguer des sous-taches.
Technique
LoRA / QLoRA
LoRA (Low-Rank Adaptation) insere de petites matrices entrainables dans les couches d'attention du modele. On n'entraine que ces matrices (~0.1% des parametres), pas le modele entier. QLoRA combine LoRA avec la quantization 4-bit, permettant de fine-tuner un modele de 70B parametres sur un seul GPU consommateur. Game changer pour l'accessibilite.
Quantization
Un LLM en full precision (FP32) prend enormement de memoire GPU. La quantization reduit la precision (FP16, INT8, INT4) pour reduire la taille et accelerer l'inference. Un modele 70B en 4-bit tient sur un Mac avec 64GB de RAM. La perte de qualite est souvent negligeable.
Multimodal
Les modeles multimodaux (GPT-4o, Claude 3.5, Gemini) traitent nativement texte + images + audio. Tu peux envoyer un screenshot de code et demander 'qu'est-ce qui bug?', ou une photo et demander 'decris cette scene'. Certains generent aussi des images (DALL-E, Midjourney) ou de la video (Sora).
Modeles open source
Contrairement aux modeles proprietaires (GPT-4, Claude) dont les poids sont secrets, les modeles open source sont telechargeables et utilisables localement. Meta (Llama), Mistral, DeepSeek et Alibaba (Qwen) publient des modeles competitifs. Avantages: gratuit, prive, customisable. Inconvenient: necessite du hardware pour tourner.