3  💬 GenAI & NLP

3.1 🏛️ Les Fondations Classiques

L’histoire du Traitement du Langage Naturel (NLP) est marquée par une transition fondamentale : le passage d’une approche purement statistique (le comptage) à des architectures génératives à haute dimension (la compréhension sémantique).

La donnée textuelle est, par nature, non structurée pour un ordinateur. La première étape de tout pipeline NLP est la “féaturisation”, c’est-à-dire la transformation d’une chaîne de caractères en un format numérique (un vecteur) exploitable par des algorithmes (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).

3.1.1 👜 Le Bag of Words (BoW)

Le modèle Bag of Words (BoW) est la méthode historique la plus rudimentaire. Il traite un document comme un simple “sac” de jetons (tokens), faisant totalement abstraction de la grammaire, de la syntaxe et, de manière plus critique, de l’ordre des mots (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).

Chaque dimension d’un vecteur BoW correspond à un mot unique du vocabulaire total, et sa valeur est simplement sa fréquence d’apparition. Cette approche souffre de deux limites rédhibitoires :

  • Le problème de la polysémie : Le terme “avocat” sera encodé de la même manière, qu’il s’agisse du fruit ou du juriste.
  • La perte de structure : Les phrases “L’homme a mordu le chien” et “Le chien a mordu l’homme” génèrent des vecteurs strictement identiques.

3.1.2 📊 Le TF-IDF

Pour pallier les défauts du BoW (notamment la domination des “stop-words” comme “le”, “et”, qui apparaissent tout le temps mais n’apportent aucun sens), l’industrie a inventer la méthode TF-IDF (Term Frequency-Inverse Document Frequency) (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).

Cette méthode introduit une pondération basée sur la spécificité des termes au sein d’un corpus complet. La formule unifiée est la suivante : \text{tfidf}(t, d, D) = \text{tf}(t, d) \cdot \log\left(\frac{N}{n_t}\right) (Où tf est la fréquence du terme t dans le document d, N est le nombre total de documents, et n_t est le nombre de documents contenant ce terme).

Plus un mot est fréquent dans un document précis, mais rare dans le reste de la base de données, plus son score TF-IDF sera élevé. C’est l’algorithme à la base des premiers moteurs de recherche et du SEO moderne.

3.1.3 🧱 Le Mur de la “Sparsité” (Sparsity Problem)

L’obstacle technique majeur de ces deux méthodes classiques est la dimensionnalité vide. Si vous analysez un corpus avec un vocabulaire de 100 000 mots uniques, un tweet de 10 mots sera représenté par un vecteur contenant 99,9 % de zéros ! Effectuer des calculs matriciels sur d’immenses vecteurs remplis de zéros gaspille la mémoire et rend le calcul de similarité sémantique inefficace.

Le Mur de la Sparsité

3.2 🌪️ Les Espaces Latents et la Compression

Pour dépasser les limites du TF-IDF et du Bag of Words, les chercheurs ont cherché à créer des représentations denses. L’idée est de projeter des milliers de mots dans un espace mathématique de dimension inférieure (quelques centaines de dimensions seulement) où la proximité entre deux points reflète une proximité de sens. C’est ce qu’on appelle l’Espace Latent (GeeksforGeeks 2026).

3.2.1 🥪 L’Autoencodeur (AE)

Un autoencodeur est un réseau de neurones conçu pour une tâche particulière : essayer de sortir exactement ce qu’on lui donne en entrée. Quel intérêt ? Le secret réside dans son architecture en “sablier”.

Le problème

Les autoencodeurs classiques sont “déterministes”. Ils créent des points isolés dans l’espace latent. Si vous essayez de générer une donnée à partir d’un point situé entre deux exemples connus, le décodeur produira souvent du bruit sans aucun sens (Bandaru 2025).

3.2.2 🎲 Les Autoencodeurs Variationnels (VAE)

Pour rendre l’espace latent “génératif”, on utilise les VAE. Au lieu de prédire un point fixe dans l’espace, l’encodeur prédit deux paramètres : une moyenne (\mu) et une variance (\sigma^2) (Team 2026).

  • Régularisation : On force l’espace latent à suivre une loi normale (une courbe en cloche). Cela garantit qu’il n’y a pas de “trous” dans l’espace. Chaque point de l’espace latent correspond maintenant à quelque chose de cohérent.
  • Reparameterization Trick : Pour que le réseau puisse apprendre malgré l’aspect aléatoire de l’échantillonnage, on utilise une astuce mathématique qui isole le hasard. Cela permet à la rétropropagation de fonctionner normalement (Bandaru 2025).
L'idée géniale : La continuité

Grâce aux VAE, l’espace latent devient continu. Si vous avez un point “Chat” et un point “Chien”, vous pouvez naviguer entre les deux et le décodeur pourrait théoriquement générer une créature hybride cohérente. C’est le premier pas vers la création de contenu par l’IA.

🕹️ Simulation Interactive : Interpolation dans l'Espace Latent (AE vs VAE)

Sélectionnez l’architecture et naviguez directement dans l’espace mathématique en faisant glisser le curseur.

3.2.3 💎 Vers le Discret

Dans les systèmes modernes (comme DALL-E ou certains modèles de compression audio), on utilise des versions “quantifiées” (VQ-VAE). Au lieu d’avoir un espace continu infini, on utilise un Codebook (un dictionnaire de vecteurs types). L’IA choisit le vecteur le plus proche dans son dictionnaire pour représenter une information, ce qui rend les modèles plus stables et plus performants pour la génération de haute qualité (Bandaru 2025).

Quantification Vectorielle (VQ-VAE)

Déplacez les curseurs pour générer un vecteur d’information continu. Observez comment l’IA l’associe obligatoirement à un “concept type” de son dictionnaire.

3.3 ⚡ La Révolution des Transformers et le Mécanisme d’Attention

Avant 2017, pour traiter du texte, l’industrie utilisait des architectures dites “récurrentes” (RNN ou LSTM). Ces modèles lisaient le texte exactement comme nous le faisons : un mot après l’autre, de gauche à droite.

Cependant, cette approche posait deux problèmes majeurs : 1. Impossibilité de paralléliser : Puisqu’il faut attendre d’avoir lu le mot N pour lire le mot N+1, les cartes graphiques (GPU) ne pouvaient pas exploiter toute leur puissance de calcul simultané. 2. L’amnésie (Vanishing Gradient) : Sur un très long paragraphe, arrivé au dernier mot, le modèle avait souvent “oublié” le sujet exact de la première phrase (Fagundes 2025).

La publication du papier de recherche Attention is All You Need (Google, 2017) a brisé ce plafond de verre en introduisant l’architecture Transformer et son mécanisme de Self-Attention (Auto-Attention).

3.3.1 🎯 Le Mécanisme de Self-Attention

Dans un Transformer, le modèle ne lit plus de gauche à droite. Il regarde tous les mots de la phrase en même temps. Pour comprendre le sens d’un mot (token), le mécanisme d’attention lui permet d’examiner tous les autres mots pour déterminer leur importance relative (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).

Pour calculer cette attention, le modèle projette chaque mot en trois vecteurs distincts, inspirés des systèmes de base de données :

  • Queries (Q - La Requête) : Ce que le token recherche (ex: “Je suis le verbe ‘manger’, je cherche qui fait l’action”).
  • Keys (K - La Clé) : Ce que le token contient ou représente (ex: “Je suis le mot ‘chat’, je suis un nom, sujet potentiel”).
  • Values (V - La Valeur) : Le contenu sémantique réel à transmettre si la requête correspond à la clé.

La formule mathématique fondamentale (Scaled Dot-Product Attention) s’écrit : \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

Note technique

Le facteur d’échelle \sqrt{d_k} est crucial. Sans lui, pour des vecteurs de très grande dimension, le produit scalaire QK^T deviendrait si grand qu’il saturerait la fonction softmax, bloquant ainsi l’apprentissage (gradient nul) (Articsledge 2026).

L'Astuce d'Architecte : FlashAttention

Le calcul de l’attention classique est extrêmement lourd. En 2022, une optimisation nommée FlashAttention a révolutionné l’entraînement. Les ingénieurs se sont rendu compte que le goulot d’étranglement n’était pas le calcul en lui-même, mais les allers-retours de données entre la mémoire vive (HBM) et la puce du GPU. FlashAttention calcule l’attention par blocs directement dans la mémoire cache ultra-rapide (SRAM), accélérant l’entraînement de près de 300 % (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).

3.4 ⚙️ Mécanique Interne des LLM

La transformation d’une phrase tapée par un utilisateur en une prédiction mathématique repose sur une ingénierie rigoureuse. Avant même de passer dans les couches d’attention du Transformer, le texte subit des transformations cruciales.

3.4.1 🎟️ Tokenisation et Embeddings

Le texte brut n’est jamais injecté tel quel. Il est d’abord découpé en unités appelées tokens. L’industrie utilise massivement le Byte-Pair Encoding (BPE). Au lieu d’avoir un token par mot (ce qui nécessiterait un dictionnaire infini), le BPE décompose les mots rares en sous-unités fréquentes (préfixes, racines, suffixes). Par exemple, le mot “anticonstitutionnellement” pourrait être découpé en 4 ou 5 tokens distincts (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).

Ces tokens sont ensuite projetés dans un espace vectoriel de haute dimension (les Embeddings). Dans cet espace, la distance cosinus entre deux vecteurs reflète leur proximité sémantique. Les concepts similaires sont physiquement proches dans cet espace mathématique (Sorbon 2024).

🕹️ Simulation Interactive : Le Tokenizer BPE (Byte-Pair Encoding)

Tapez une phrase ci-dessous. Observez comment le modèle découpe les mots fréquents, les mots rares et la ponctuation avant de les transformer en vecteurs.

3.4.2 📍 Encodage Positionnel

Le mécanisme d’attention du Transformer est une force brute parallèle : il regarde tous les mots en même temps. Sans mécanisme externe, il est aveugle à l’ordre des mots. Pour lui, “Le chat mange la souris” et “La souris mange le chat” seraient traités de la même manière. Il faut donc injecter l’information de position dans les vecteurs avant le traitement.

Plusieurs stratégies s’affrontent dans la littérature :

  • Sinusoïdal (Le modèle original de 2017) : Utilise des ondes sinus et cosinus de différentes fréquences pour créer une “empreinte” de position. Bien qu’élégant, ce système extrapole mal si on lui donne une phrase plus longue que celles vues à l’entraînement (Articsledge 2026).
  • Learned Encodings (BERT, GPT-2) : Le modèle apprend un vecteur spécifique pour chaque position (de 0 à 511). Défaut majeur : le modèle plante catégoriquement s’il reçoit un 513ème token (Fagundes 2025).
  • RoPE (Rotary Positional Embeddings) : C’est le standard actuel (utilisé par LLaMA, Mistral). L’algorithme fait pivoter les vecteurs Q et K d’un angle proportionnel à leur position. Imaginez les aiguilles d’une montre : l’angle relatif entre l’aiguille des heures et celle des minutes encode naturellement la distance entre deux mots. Cela permet une excellente extrapolation (Articsledge 2026).
  • ALiBi : Une alternative qui ne modifie pas les vecteurs, mais applique une pénalité linéaire directement sur les scores d’attention en fonction de la distance, favorisant naturellement le contexte récent (Fagundes 2025).
🕹️ Simulation Interactive : RoPE appliquée au Texte

3.4.3 🪟 La Fenêtre de Contexte (Context Window)

Le nombre maximum de tokens qu’un LLM peut ingérer et mémoriser en une seule fois s’appelle la Context Window.

Pourquoi ne peut-on pas simplement donner un livre entier de 1 million de pages à un modèle basique ? Parce que la complexité mathématique du mécanisme d’attention est quadratique (O(N^2)). Si vous doublez la taille du texte, vous multipliez par quatre le temps de calcul et la mémoire requise.

Le calcul de l'Architecte

Pour une séquence de 100 000 tokens, la matrice d’attention seule nécessiterait environ 1,2 Téraoctet de mémoire GPU. C’est physiquement impossible à faire tourner sur du matériel standard (Fagundes 2025).

Pour repousser ces limites, les ingénieurs utilisent des astuces comme la Sliding Window Attention (le modèle ne fait attention qu’aux K derniers tokens autour de lui) ou la Sparse Attention, ce qui permet de ramener la consommation de mémoire à une croissance linéaire.

flowchart TD
    A[Texte Brut\n'Il fait beau'] --> B(BPE Tokenizer)
    B --> C['Il', ' fait', ' beau']
    C --> D(Embeddings)
    D --> E{Vecteurs denses}
    F(Encodage Positionnel\nex: RoPE) --> G((+))
    E --> G
    G --> H[Vecteurs orientés injectés\ndans les blocs Transformer]

3.5 🕹️ Pilotage du Modèle

L’inférence (la phase où l’utilisateur pose une question et où le modèle répond) n’est pas une recherche d’information dans une base de données. C’est un échantillonnage probabiliste au sein d’une distribution mathématique. Le réseau calcule les probabilités de tous les mots du vocabulaire, puis “tire au sort” le mot suivant.

En modifiant les paramètres de ce tirage au sort, on peut changer radicalement le comportement et la “personnalité” du modèle.

3.5.1 🌡️ La Température (T) et le Softmax

La Température est le levier le plus connu. Mathématiquement, elle s’insère directement dans la fonction d’activation Softmax (voir définition au Chapitre 1) placée sur la toute dernière couche du LLM : p_i = \frac{\exp(L_i / T)}{\sum \exp(L_j / T)}

L’impact de la variable T (Température) est fondamental (Iz 2025) : * T \to 0 (Basse) : La distribution de probabilité se “pince” sur le token le plus probable. Le tirage au sort disparaît presque, le modèle devient déterministe. C’est le réglage idéal pour générer du code informatique, analyser des logs ou extraire des faits stricts (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026). * T > 1 (Haute) : La distribution s’aplatit. Les mots qui avaient une faible probabilité d’apparaître voient leur score artificiellement gonflé. Cela augmente la variabilité et donne une illusion de créativité, mais multiplie les risques de phrases incohérentes (Sorbon 2024).

3.5.2 ⚖️ Les Stratégies Nucleus

Même avec une température bien réglée, il reste toujours une “longue traîne” de mots absurdes qui ont une probabilité de 0.0001% d’être tirés. Pour éviter les déraillements catastrophiques, on tronque la distribution avant le tirage au sort :

  • Top-K : Le modèle ne conserve que les K meilleurs candidats (ex: le top 40 des mots les plus probables) et ramène la probabilité de tous les autres à zéro.
  • Top-P (Nucleus Sampling) : Plus dynamique que le Top-K. Le modèle additionne les probabilités des meilleurs tokens en descendant dans la liste. Dès que la somme atteint le seuil P (ex: 0.95, soit 95% de la masse de probabilité), il coupe la liste. Cela permet de garder beaucoup de mots si le contexte est flou, ou très peu de mots si le contexte est évident (Sorbon 2024).
🕹️ Simulation Interactive : Pilotage de la Distribution Probabiliste

3.5.3 ✍️ Le Prompt Engineering

Le Prompt Engineering n’est pas de la “magie” ou de la simple rédaction. Techniquement, c’est l’art de fournir un contexte initial suffisamment riche pour orienter la distribution de probabilité de l’attention vers le sous-domaine de réponse souhaité (Souchère 2025).

Parmi les techniques avancées, la plus efficace est le Chain-of-Thought (CoT). En incitant le modèle à “penser étape par étape”, on le force à générer des tokens intermédiaires de raisonnement. Puisque l’attention de la fenêtre de contexte se nourrit des mots précédemment générés, ces étapes intermédiaires guident mathématiquement la prédiction finale vers une solution logique, évitant ainsi les conclusions hâtives et erronées.

graph TD
    A[Prompt Utilisateur] --> B{LLM calcule les\nprobabilités brutes}
    B --> C[Filtre Top-K / Top-P]
    C --> D[Ajustement par la Température]
    D --> E((Tirage au sort\ndu Token final))
    E -->|Boucle| A

3.6 🛡️ Risques Critiques et Sécurité des Systèmes d’IA

L’intégration industrielle des Modèles de Langage (LLM) ne se limite pas à régler la température ou à trouver le bon prompt. En tant qu’architecte système, vous allez déployer ces modèles dans des environnements de production critiques (banque, santé, service client). Or, ces architectures probabilistes présentent des vulnérabilités inédites en ingénierie logicielle.

3.6.1 😵‍💫 Hallucinations et Biais

Il est crucial de comprendre que l’hallucination n’est pas un “bug” du modèle, c’est une propriété émergente de son architecture probabiliste. Le modèle ne cherche pas la vérité, il cherche la suite statistique la plus probable de votre phrase. S’il ne connaît pas une information, il va mathématiquement générer une réponse fluide et syntaxiquement parfaite, mais factuellement fausse (Sorbon 2024).

Les biais, quant à eux, sont le reflet direct du jeu de données d’entraînement (souvent un large pan d’Internet) : * Biais démographiques : Reproduction de stéréotypes (ex: associer systématiquement le mot “infirmière” au genre féminin). * Biais culturels : Une vision du monde souvent occidentalo-centrée. * Biais de sélection : Sur-représentation de certains groupes sociaux très actifs en ligne au détriment d’autres (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).

3.6.2 🔐 La Sécurité

La cybersécurité classique protégeait les bases de données (injections SQL). La cybersécurité de l’IA générative doit protéger le modèle lui-même. Le projet OWASP a identifié les failles critiques des LLM :

  • LLM01 - Prompt Injection (Injection de Prompt) : C’est la menace numéro un. Un attaquant insère des instructions malveillantes dans le texte pour détourner le comportement prévu du modèle.
  • LLM02 - Insecure Output Handling : La faille ne vient pas de l’entrée, mais de la sortie. Si le modèle génère un script malveillant (ex: du code JavaScript) et que l’application web l’affiche sans le nettoyer, cela provoque une attaque XSS classique chez l’utilisateur final (“The Architecture of Meaning: From Statistical Heuristics to Generative Transformers in Natural Language Processing” 2026).
  • LLM05 - Supply Chain Vulnerabilities : Vulnérabilités introduites par des composants tiers ou des ensembles de données compromis dans la chaîne d’approvisionnement du modèle.
  • LLM06 - Sensitive Information Disclosure : Le modèle révèle des données personnelles (PII) ou des secrets industriels qu’il a mémorisés (overfitting) pendant sa phase d’entraînement. La remédiation exige une “sanitisation” stricte des données avant l’entraînement.

3.7 🌉 Conclusion et Transition

Le langage est une interface puissante, mais elle reste passive. Pour que l’IA devienne véritablement utile, elle doit pouvoir agir : utiliser des outils, naviguer sur le web, et prendre des décisions autonomes.

Nous explorerons en détail le fonctionnement technique de ce pipeline et des agents autonomes au Chapitre 4 : Orchestration & Agents.