Glossaire IA

Tous les termes utilises dans mes articles, expliques simplement. Pas besoin d'un PhD pour comprendre l'IA.

Fondamentaux

LLM (Large Language Model)

Un Large Language Model est un reseau de neurones entraine sur d'enormes quantites de texte. Il predit le prochain mot (token) dans une sequence. GPT-4, Claude et Llama sont des LLM. Malgre leur simplicite conceptuelle (predire le mot suivant), ils emergent des capacites de raisonnement, de code et de creativite.

Fondamentaux

Transformer

Introduit dans le paper 'Attention Is All You Need' (2017), le Transformer est l'architecture derriere tous les LLM modernes. Contrairement aux reseaux recurrents (RNN), il traite tous les tokens simultanement grace au mecanisme d'attention, ce qui le rend parallelisable et plus performant sur le texte long.

Fondamentaux

Token / Tokenization

Les LLM ne lisent pas du texte brut. Le texte est d'abord decoupe en tokens (sous-mots) via un algorithme comme BPE (Byte Pair Encoding). 'Bonjour' peut devenir [Bon, jour]. Le modele travaille avec ces tokens sous forme de nombres. La taille du vocabulaire (nombre de tokens possibles) est typiquement 30K-100K.

Fondamentaux

Embedding

Un embedding convertit un mot, une phrase ou un document en un vecteur de nombres (ex: 1536 dimensions). Les textes au sens similaire ont des vecteurs proches. C'est la base de la recherche semantique: au lieu de chercher des mots exacts, on cherche des sens proches. Utilise massivement dans le RAG et les vector databases.

Fondamentaux

Attention (mecanisme)

Le mecanisme d'attention permet a chaque token de 'regarder' tous les autres tokens du contexte pour comprendre les relations. Self-attention calcule des scores de pertinence entre tous les tokens. C'est ce qui permet au modele de comprendre que dans 'Le chat mange sa souris', 'sa' se rapporte au chat.

Fondamentaux

Pre-training

Premiere phase d'entrainement d'un LLM. Le modele ingere des teraoctets de texte (web, livres, code) et apprend a predire le token suivant. Cette phase coute des millions de dollars en GPU et dure des semaines/mois. Elle donne au modele sa connaissance generale du langage, des faits et du raisonnement.

Fondamentaux

Fine-tuning

Apres le pre-training, on peut specialiser un modele sur un domaine (medical, juridique, code) en le re-entrainant sur des donnees ciblees. Le fine-tuning complet est couteux. Des techniques legeres comme LoRA permettent d'adapter un modele avec peu de donnees et de compute.

Fondamentaux

RLHF

Reinforcement Learning from Human Feedback. Phase 3 de l'entrainement: des annotateurs humains classent les reponses du modele par qualite, et un modele de recompense est entraine pour guider le LLM. C'est ce qui transforme un modele brut (GPT-3, incoherent) en assistant utile (ChatGPT). Sans RLHF, les LLM sont techniques mais inutilisables.

Fondamentaux

Inference

L'inference est le moment ou le modele est utilise (pas entraine). Tu envoies un prompt, le modele genere des tokens un par un. Le cout d'inference est bien inferieur a l'entrainement mais s'accumule avec l'usage. Les tokens d'entree et de sortie sont factures separement par les APIs.

Fondamentaux

Context window

Le context window definit combien de tokens le modele peut 'voir' simultanement. GPT-3 avait 4K tokens (~3 pages). GPT-4 Turbo: 128K. Gemini 1.5: 1M tokens (~un livre entier). Plus la fenetre est grande, plus on peut donner de contexte au modele, mais le cout et la latence augmentent aussi.

Fondamentaux

Patterns pour devs

Prompt engineering

Le prompt engineering consiste a formuler ses demandes de maniere optimale. Techniques cles: system prompt (definir le role), few-shot (donner des exemples), chain-of-thought (demander de raisonner etape par etape). C'est la competence #1 pour travailler avec les LLM — 80% de la valeur vient de la qualite du prompt.

Patterns pour devs

RAG (Retrieval-Augmented Generation)

Le RAG resout le probleme central des LLM: ils ne connaissent pas VOS donnees. Le principe: 1) Indexer vos documents en embeddings dans une vector DB. 2) Quand une question arrive, chercher les morceaux pertinents. 3) Les injecter dans le prompt. 4) Le modele repond avec ce contexte. C'est le pattern le plus utilise en entreprise.

Patterns pour devs

Function calling / Tool use

Au lieu de juste repondre en texte, le modele peut decider d'appeler des fonctions que vous definissez: chercher dans une base, envoyer un email, creer un ticket. Vous decrivez les fonctions disponibles (nom, parametres, description) et le modele decide quand et comment les appeler. C'est le pont entre 'repondre' et 'agir'.

Patterns pour devs

MCP (Model Context Protocol)

Le Model Context Protocol est un standard ouvert (lance par Anthropic fin 2024) qui definit comment un agent IA se connecte a des outils. Vous creez un serveur MCP qui expose des outils, et n'importe quel client compatible (Claude Desktop, Cursor, Zed) peut les utiliser. Un serveur = tous les clients. C'est l'interoperabilite qui manquait.

Patterns pour devs

Vector database

Contrairement aux BDD classiques (recherche exacte par cle/SQL), les vector databases cherchent par similarite semantique. Vous stockez vos documents sous forme d'embeddings, et une requete retourne les documents les plus 'proches' en sens. Outils: Pinecone, Chroma, Weaviate, Qdrant. Essentielles pour le RAG.

Patterns pour devs

Few-shot / Zero-shot

Zero-shot: vous demandez directement sans exemple. Few-shot: vous donnez 2-5 exemples du format attendu dans le prompt. Le modele imite le pattern. Technique simple mais puissante — souvent suffisante avant de passer au fine-tuning.

Patterns pour devs

System prompt

Le system prompt est un message special place avant la conversation qui definit le role du modele ('Tu es un expert en...'), ses contraintes ('Reponds toujours en francais'), et son style. C'est le 'briefing' de l'assistant. Tous les produits IA commerciaux en utilisent un.

Patterns pour devs

Raisonnement

Chain-of-thought (CoT)

Ajouter 'raisonne etape par etape' au prompt ameliore drastiquement les resultats sur les problemes de logique, math et code. Le modele decompose le probleme plutot que de repondre d'un coup. Les reasoning models (o1, Claude extended thinking) automatisent ce processus avec une 'reflexion interne' invisible.

Raisonnement

Tree-of-thought (ToT)

Alors que le chain-of-thought suit un chemin lineaire, le tree-of-thought explore plusieurs branches simultanement: le modele genere plusieurs hypotheses, les evalue, et garde la meilleure. C'est plus couteux (plus de tokens) mais bien meilleur pour les problemes complexes avec plusieurs solutions possibles.

Raisonnement

Reasoning model

Les reasoning models (OpenAI o1/o3, Claude avec extended thinking) prennent le temps de 'penser' — ils generent un raisonnement interne (souvent invisible) avant la reponse finale. Bien meilleurs que les LLM standards pour le code, les maths et la logique. Le compromis: plus lents et plus chers.

Raisonnement

Extended thinking

Extended thinking est la version Anthropic des reasoning models. Claude prend du temps pour raisonner avant de repondre, et peut optionnellement montrer son 'processus de reflexion'. Similaire a o1 d'OpenAI mais avec plus de transparence sur le raisonnement.

Raisonnement

Agents & systemes

Agent IA

Un agent IA est fondamentalement different d'un chatbot. Un chatbot repond (input->output). Un agent AGIT en boucle: il observe (lit le contexte), raisonne (planifie), agit (appelle des outils), et verifie (evalue le resultat). Si ca echoue, il recommence. Claude Code est un agent: il lit ton code, reflechit, edite, teste, corrige.

Agents & systemes

Boucle agentique

La boucle agentique est le pattern fondamental des agents IA: 1) Observer (lire fichiers, contexte). 2) Raisonner (planifier les etapes). 3) Agir (executer des outils). 4) Verifier (tester le resultat). Si le resultat est insatisfaisant, l'agent recommence. L'autonomie vient de cette capacite a iterer sans intervention humaine.

Agents & systemes

Multi-agent

Au lieu d'un seul agent generaliste, on decompose en agents specialises: un agent chercheur, un agent codeur, un agent reviewer. Ils communiquent et delegent entre eux. Frameworks: CrewAI, AutoGen, Anthropic Agent SDK. Le defi: coordination, coherence, et eviter les boucles infinies.

Agents & systemes

Hallucination

Les LLM 'hallucinent' quand ils inventent des faits, citations, URLs ou code qui n'existent pas, mais les presentent avec assurance. C'est une limitation fondamentale de la prediction de tokens. Le RAG, la verification automatique et les guardrails sont les principales strategies pour reduire les hallucinations.

Agents & systemes

Guardrails

Les guardrails sont des contraintes de securite pour les agents: limiter les actions autorisees, valider avant d'executer, interdire certaines operations (supprimer des fichiers, envoyer des emails). En production, un agent sans guardrails est dangereux — il peut halluciner et agir sur ses hallucinations.

Agents & systemes

A2A (Agent-to-Agent)

Agent-to-Agent est un protocole ouvert lance par Google qui standardise comment les agents IA communiquent entre eux. Si MCP connecte les agents aux outils, A2A connecte les agents entre eux. Un agent peut decouvrir les capacites d'un autre et lui deleguer des sous-taches.

Agents & systemes

Technique

LoRA / QLoRA

LoRA (Low-Rank Adaptation) insere de petites matrices entrainables dans les couches d'attention du modele. On n'entraine que ces matrices (~0.1% des parametres), pas le modele entier. QLoRA combine LoRA avec la quantization 4-bit, permettant de fine-tuner un modele de 70B parametres sur un seul GPU consommateur. Game changer pour l'accessibilite.

Technique

Quantization

Un LLM en full precision (FP32) prend enormement de memoire GPU. La quantization reduit la precision (FP16, INT8, INT4) pour reduire la taille et accelerer l'inference. Un modele 70B en 4-bit tient sur un Mac avec 64GB de RAM. La perte de qualite est souvent negligeable.

Technique

Multimodal

Les modeles multimodaux (GPT-4o, Claude 3.5, Gemini) traitent nativement texte + images + audio. Tu peux envoyer un screenshot de code et demander 'qu'est-ce qui bug?', ou une photo et demander 'decris cette scene'. Certains generent aussi des images (DALL-E, Midjourney) ou de la video (Sora).

Technique

Modeles open source

Contrairement aux modeles proprietaires (GPT-4, Claude) dont les poids sont secrets, les modeles open source sont telechargeables et utilisables localement. Meta (Llama), Mistral, DeepSeek et Alibaba (Qwen) publient des modeles competitifs. Avantages: gratuit, prive, customisable. Inconvenient: necessite du hardware pour tourner.

Technique