1 🧹 Fondations de l’IA & Data

1.1 📜 Genèse et Écosystème de l’IA

L’Intelligence Artificielle n’est pas née avec l’émergence d’Internet ; elle s’inscrit dans une perspective historique longue, jalonnée de ruptures technologiques et de cycles économiques (les fameux “hivers” et “étés” de l’IA) (Wikipédia 2026).

1.1.1 🕰️ Une histoire du “Raisonnement” Artificiel

Pour comprendre où nous en sommes, il faut d’abord visualiser les étapes clés qui nous ont menés des premières machines à calculer aux agents autonomes actuels.

Alan Turing	Le Test de Turing
	Fondation philosophique : Les machines peuvent-elles penser ? Invention du “jeu de l’imitation”.

McCarthy & Minsky	La Naissance
	Concept : Conférence de Dartmouth. Le terme “Intelligence Artificielle” est officiellement inventé.

Edward Feigenbaum	L’Âge des Systèmes Experts
	Logique pure : Apogée puis déclin des programmes basés sur des règles strictes (“Si… Alors”). Premier hiver de l’IA.

Yann LeCun	Puissance brute et Apprentissage
	Transition : LeNet de Yann LeCun (1989) pose les bases du Deep Learning. Deep Blue bat Kasparov aux échecs (1997) par la force de calcul.

Ian Goodfellow	L’Ère de la Génération
	Imagination artificielle : Invention des GANs (Generative Adversarial Networks). La machine ne se contente plus de classer, elle apprend à créer.

Google DeepMind	La Révolution Deep Learning
	Intuition artificielle : L’IA de Google DeepMind bat le champion du monde de Go grâce à l’apprentissage par renforcement.

OpenAI	L’Ère Générative
	Basculement : Démocratisation brutale des LLM (Large Language Models) par OpenAI. Début de la course aux armements.

DeepSeek	Le Mur Matériel et Économique
	Raisonnement & Krach : Le modèle ultra-efficient de DeepSeek bouscule le monopole de Nvidia (2025). L’industrie fait face à une pénurie mondiale de mémoire vive (2026).

1.1.1.1 🧠 Typologie et Raisonnement des IA

Pour bien situer les technologies actuelles, il est crucial de distinguer les différentes approches de la résolution de problèmes par la machine. Chacune possède sa propre façon de “raisonner”, avec ses forces et ses limites.

Approche	Comment ça “raisonne” ?	Forces	Faiblesses
Algorithme Classique	Exécution stricte. Le programmeur fournit les règles (le code) et les données. La machine applique la recette pour obtenir une réponse.	Déterministe, prédictible, traçabilité totale, très rapide.	Rigide. Incapable de gérer l’imprévu ou les ambiguïtés du monde réel.
Système Expert (IA Symbolique)	Déduction logique. Raisonne par inférence (“Si A et B, alors C”) à partir d’une vaste base de connaissances codée par des experts métiers.	Très forte explicabilité (on sait pourquoi il prend une décision), rigueur absolue.	“Mur de la complexité” : il est impossible de coder manuellement toutes les règles de l’univers.
Machine Learning (ML)	Apprentissage statistique. On fournit les données et les réponses attendues. L’algorithme déduit lui-même les règles (patterns) qui lient les deux.	Excellente performance sur des données tabulaires/structurées, capacité de prédiction fine.	Dépend de la qualité des données. Nécessite souvent un “Feature Engineering” (préparation) manuel lourd.
Deep Learning (DL)	Représentation hiérarchique. Des couches de “neurones” artificiels extraient des concepts de plus en plus abstraits (ex: pixels -> contours -> visage).	Excelle sur les données brutes non structurées (images, son, texte), découvre ses propres “features”.	Effet “Boîte noire” (difficile à interpréter). Extrêmement gourmand en données et en puissance de calcul.
IA Générative (GenAI)	Modélisation probabiliste. Apprend la structure et la distribution sous-jacentes des données pour générer de nouvelles séquences plausibles.	Créativité, fluidité de l’interaction en langage naturel, hyper-polyvalence (code, texte, image).	Sujette aux “hallucinations” (affirme des faits faux avec aplomb). Coûts d’entraînement et d’inférence astronomiques.

De la logique à l'intuition

Jusqu’aux années 1990, l’industrie a privilégié l’IA Symbolique et les Systèmes Experts. La victoire de Deep Blue (IBM) contre Garry Kasparov en 1997 relevait de cette époque : une puissance de calcul massive couplée à un algorithme de recherche heuristique (Min-Max), et non de l’apprentissage automatique.

Le tournant majeur s’est opéré par la suite grâce à l’augmentation de la puissance de calcul et l’explosion des données. On est passé à une IA “connexionniste” (Machine Learning puis Deep Learning) (Syracuse University’s iSchool 2025). C’est la naissance d’une IA capable de développer une forme “d’intuition” mathématique plutôt que de simplement suivre des rails scriptés.

1.1.2 ⛓️ La Chaîne de Valeur de l’IA Moderne

Aujourd’hui, l’IA n’est plus un simple exercice de laboratoire expérimental ; c’est une industrie lourde qui repose sur une infrastructure mondiale complexe, divisée en quatre couches interdépendantes (“The Architecture of Modern Intelligence” 2026).

flowchart TD
    A[Hardware & Puces\nNVIDIA, ASML, AMD, Google TPU] -->|Fournissent la puissance| B(Cloud & IaaS\nAWS, Azure, GCP, OVH)
    B -->|Hébergent les calculs massifs| C{Créateurs de Modèles\nOpenAI, DeepMind, Mistral, DeepSeek}
    C -->|Accès via API & Open Source| D[Applications Finales\nSpotify, ChatGPT, Shift Technology, Notion]
    
    style A fill:#f9d0c4,stroke:#333,stroke-width:2px
    style B fill:#fcf3c0,stroke:#333,stroke-width:2px
    style C fill:#c4e1f9,stroke:#333,stroke-width:2px
    style D fill:#c4f9cc,stroke:#333,stroke-width:2px

Comprendre ces quatre piliers est vital pour l’architecte système. La dépendance à la couche “Hardware” (notamment la lithographie avec ASML et la conception avec Nvidia) montre que la souveraineté matérielle devient aussi cruciale que la performance algorithmique. Un modèle de pointe n’a aucune utilité sans les capacités de calcul et d’hébergement nécessaires à son entraînement et à son inférence.

1.2 🧠 Anatomie Fonctionnelle des Réseaux de Neurones

Pour l’architecte système, un réseau de neurones n’est pas une “boîte noire” magique, mais une superposition de couches mathématiques organisées de manière hiérarchique pour extraire du sens à partir de données brutes (“The Architecture of Modern Intelligence” 2026).

1.2.1 🧅 La Structure en Couches (Layers)

Cette architecture mime grossièrement le fonctionnement des neurones biologiques et permet de hiérarchiser l’information : plus on descend profondément dans les couches du réseau, plus la représentation de la donnée devient abstraite.

📥 Input Layer (Entrée) : Point de contact avec le monde extérieur. Elle reçoit les données brutes (features comme des pixels ou du texte) et n’effectue aucun calcul complexe. Son rôle unique est de formater et de transmettre le signal.
🧠 Hidden Layers (Cachées) : Cœur de l’intelligence. Ces couches effectuent des calculs matriciels en cascade pour identifier des motifs de plus en plus complexes (ex: bords \rightarrow formes \rightarrow visage). La modularité de ces couches définit l’Apprentissage Profond (Deep Learning).
📤 Output Layer (Sortie) : Verdict final. Elle consolide les calculs pour livrer une probabilité (classification) ou une valeur numérique continue (régression).

1.2.2 🔄 La Danse du Signal (Le Cycle d’Apprentissage)

Le signal informatique ne se contente pas de traverser les couches à sens unique. Pour qu’il y ait apprentissage, il effectue un cycle en deux temps (IBM 2026) :

➡️ Propagation Avant (Feedforward) : La donnée traverse le réseau de gauche à droite. Elle génère une prédiction qui, au début de l’entraînement, est totalement aléatoire.
⬅️ Rétropropagation de l’erreur (Backpropagation) : C’est le véritable moteur de l’apprentissage. Le réseau compare sa prédiction avec la réalité, calcule son erreur (via une Loss Function) et remonte le signal à l’envers pour ajuster les poids et les biais de chaque neurone afin de réduire l’erreur au prochain passage (Daniella 2024b).

graph TD
    A[Données Brutes] --> B(Feedforward : Calculs)
    B --> C{Prédiction du réseau}
    C -->|Comparaison avec la réalité| D[Calcul de l'Erreur / Loss]
    D --> E(Backpropagation : Retour)
    E -->|Ajustement des Poids & Biais| B
    
    style A fill:#f9d0c4,stroke:#333,stroke-width:2px
    style C fill:#c4e1f9,stroke:#333,stroke-width:2px
    style D fill:#fcf3c0,stroke:#333,stroke-width:2px

Note sur l'activation

Chaque neurone décide de transmettre son signal à la couche suivante via une Fonction d’Activation (ex: ReLU, Sigmoid). Sans ces fonctions non-linéaires, un réseau de neurones, même infiniment profond, ne serait qu’une simple régression linéaire incapable de résoudre des problèmes complexes.

1.3 ⚡ Les Fonctions d’Activation

Imaginons un réseau de neurones avec des centaines de couches, mais sans fonction d’activation. Mathématiquement, la multiplication de matrices successives resterait une opération linéaire. Sans cette “porte” spéciale, notre réseau profond gigantesque ne serait rien de plus qu’un modèle de régression linéaire de base, incapable de comprendre la complexité du monde réel.

Les fonctions d’activation introduisent la non-linéarité indispensable à l’apprentissage profond (Daniella 2024a). Le choix de la fonction dicte la vitesse de convergence et la stabilité du modèle pendant la descente de gradient.

1.3.1 📚 Les Classiques de la Littérature Neuronale

Visualisation des Activations Classiques

Sigmoïde : f(x) = \frac{1}{1 + e^{-x}}. Écrase l’entrée entre 0 et 1 (idéal pour les probabilités).
Tanh : f(x) = \text{tanh}(x). Centrée sur zéro, entre -1 et 1.
ReLU : f(x) = \max(0, x). La norme standard pour sa simplicité et sa rapidité.
Softmax : Utilisée en sortie pour transformer des scores en distribution de probabilités (somme = 1).

viewof x_val = ui.slider({
  label: "Valeur de x",
  value: 0,
  min: -5,
  max: 5,
  step: 0.1
})

sigmoid = (x) => 1 / (1 + Math.exp(-x))
tanh = (x) => Math.tanh(x)
relu = (x) => Math.max(0, x)
softmax = (x) => Math.exp(x) / (Math.exp(x) + Math.exp(0) + Math.exp(1)) // Cas 3-classes (x vs 0 vs 1)

data = {
  const points = [];
  for (let x = -5; x <= 5; x += 0.2) {
    points.push({x: x, y: sigmoid(x), type: "Sigmoïde"});
    points.push({x: x, y: tanh(x), type: "Tanh"});
    points.push({x: x, y: relu(x), type: "ReLU"});
    points.push({x: x, y: softmax(x), type: "Softmax"});
  }
  return points;
}

Plot.plot({
  height: 400,
  background: "transparent",
  grid: true,
  y: {domain: [-1.1, 1.1], label: "Activation"},
  color: {legend: true, domain: ["Sigmoïde", "Tanh", "ReLU", "Softmax"], range: [theme.red, theme.green, theme.blue, theme.magenta]},
  marks: [
    Plot.ruleY([0]),
    Plot.ruleX([0]),
    Plot.line(data, {x: "x", y: "y", stroke: "type", strokeWidth: 2}),
    Plot.dot([{x: x_val, y: sigmoid(x_val)}], {x: "x", y: "y", fill: theme.red}),
    Plot.dot([{x: x_val, y: tanh(x_val)}], {x: "x", y: "y", fill: theme.green}),
    Plot.dot([{x: x_val, y: relu(x_val)}], {x: "x", y: "y", fill: theme.blue}),
    Plot.dot([{x: x_val, y: softmax(x_val)}], {x: "x", y: "y", fill: theme.magenta})
  ]
})

{
  const m = ui.org.monitor({ header: "Valeurs d'Activation" });
  m.addValue("Sigmoïde", sigmoid(x_val).toFixed(3), { color: theme.red });
  m.addValue("Tanh", tanh(x_val).toFixed(3), { color: theme.green });
  m.addValue("ReLU", relu(x_val).toFixed(3), { color: theme.blue });
  m.addValue("Softmax", softmax(x_val).toFixed(3), { color: theme.magenta });
  return m;
}

Alerte Clinique : Le syndrome du Dying ReLU

Le grand point faible de ReLU est sa stricte nullité pour x \le 0. Si une entrée est négative, le gradient devient 0. Pendant la rétropropagation, ce neurone ne mettra plus jamais ses poids à jour : il est “mort”. Des variantes comme Leaky ReLU ajoutent une micro-pente négative pour maintenir un flux de gradient.

1.3.2 ✨ L’Ère Moderne (Spécial IA Générative)

Avec l’avènement des architectures complexes (Transformers, LLM), les chercheurs ont optimisé les fonctions pour éviter les cassures de gradient et améliorer la stabilité (Baheti 2021) :

GELU (Gaussian Error Linear Unit) : La norme pour les Transformers. Elle pondère l’entrée par sa probabilité de survie selon une distribution gaussienne, évitant les coupures brutales.
SELU (Scaled Exponential Linear Unit) : S’auto-normalise pour garantir que la variance des activations reste stable à travers des réseaux très profonds.
Swish : Développée par Google, idéale pour les très gros réseaux grâce à sa courbure non-monotone.

Fonctions d'Activations Modernes

viewof x_modern = ui.slider({
  label: "Valeur de x (moderne)",
  value: 0,
  min: -5,
  max: 5,
  step: 0.1
})

swish = (x) => x / (1 + Math.exp(-x))
gelu = (x) => 0.5 * x * (1 + Math.tanh(Math.sqrt(2 / Math.PI) * (x + 0.044715 * Math.pow(x, 3))))
selu = (x) => { const lambda = 1.0507; const alpha = 1.6733; return x > 0 ? lambda * x : lambda * alpha * (Math.exp(x) - 1); }

data_modern = {
  const points = [];
  for (let x = -5; x <= 5; x += 0.2) {
    points.push({x: x, y: swish(x), type: "Swish"});
    points.push({x: x, y: gelu(x), type: "GELU"});
    points.push({x: x, y: selu(x), type: "SELU"});
  }
  return points;
}

Plot.plot({
  height: 400,
  background: "transparent",
  grid: true,
  y: {domain: [-2, 0.7], label: "Activation"},
  x: {domain: [-3, 3], label: "x"},
  color: {legend: true, domain: ["Swish", "GELU", "SELU"], range: [theme.orange, theme.magenta, theme.red]},
  marks: [
    Plot.ruleY([0]),
    Plot.ruleX([0]),
    Plot.line(data_modern, {x: "x", y: "y", stroke: "type", strokeWidth: 3}),
    Plot.dot([{x: x_modern, y: swish(x_modern)}], {x: "x", y: "y", fill: theme.orange}),
    Plot.dot([{x: x_modern, y: gelu(x_modern)}], {x: "x", y: "y", fill: theme.magenta}),
    Plot.dot([{x: x_modern, y: selu(x_modern)}], {x: "x", y: "y", fill: theme.red})
  ]
})

{
  const m = ui.org.monitor({ header: "Valeurs d'Activation (Modernes)" });
  m.addValue("Swish", swish(x_modern).toFixed(3), { color: theme.orange });
  m.addValue("GELU", gelu(x_modern).toFixed(3), { color: theme.magenta });
  m.addValue("SELU", selu(x_modern).toFixed(3), { color: theme.red });
  return m;
}

1.4 🎢 Optimisation et Apprentissage

L’apprentissage d’un réseau de neurones est un problème d’optimisation. Mathématiquement, l’erreur globale du modèle est quantifiée par une Loss Function, notée J(\theta), où \theta représente les poids et biais. L’objectif est de trouver le paramètre optimal qui minimise cette erreur (Daniella 2024b).

1.4.1 🧗 La règle de mise à jour

Pour minimiser J(\theta), on calcule son gradient \nabla J(\theta), qui indique la direction de la plus forte pente montante. On met à jour les poids en se déplaçant dans la direction opposée : \theta_{t+1} = \theta_t - \eta \nabla J(\theta_t) Où \eta est le Learning Rate, un hyperparamètre crucial contrôlant la taille du pas.

Ce paysage multidimensionnel est cependant complexe (Ruder 2016) : * Minima locaux : Des points où le gradient est nul mais qui ne sont pas le minimum global. * Plateaux : Des régions plates où la dérivée est proche de 0, ralentissant l’apprentissage. * Points de selle : Des points agissant comme un minimum dans une dimension et un maximum dans une autre. Ils sont très fréquents dans les espaces en haute dimension.

1.4.2 🏃 Les Stratégies d’Échantillonnage

Calculer le gradient sur l’ensemble du dataset est irréalisable. On divise donc le processus :

Batch GD : Calcul sur TOUT le dataset. Déterministe mais très coûteux.
Stochastic GD (SGD) : Calcul sur une seule donnée. Le “bruit” généré aide à s’échapper des minima locaux mais empêche une convergence stable.
Mini-batch GD : Calcul sur un petit groupe (ex: 64 données). C’est le standard industriel qui permet d’utiliser la puissance des GPU (Tensor Cores) (IBM 2026).

1.4.3 ⚡ Simulation de Descente avec Inertie

Paramètres du Gradient

Les optimiseurs modernes comme Adam ou le Momentum simulent l’inertie physique pour franchir les obstacles et accélérer la descente.

viewof controls = {
  const momentumInput = ui.slider({
    label: "Inertie (Momentum)",
    value: 0.771,
    min: 0.5,
    max: 1,
    step: 0.001
  });
  
  const btn = html`<button class="atom-btn"><span>🔴</span> Lâcher la Balle</button>`;
  
  const container = html`<div style="display: flex; align-items: flex-start; gap: 40px; width: 100%; margin-bottom: 10px;">
    <div style="flex: 1;">${momentumInput}</div>
    <div style="flex: 0 0 auto;">${btn}</div>
  </div>`;
  
  container.value = { 
    momentum: 0.771,
    btn: btn 
  };
  
  momentumInput.addEventListener("input", (e) => {
    container.value.momentum = momentumInput.value;
  });
  
  return container;
}

Plotly = require("plotly.js-dist@2.24.1")

{
  const container = document.createElement("div");
  container.style.height = "320px";
  container.style.width = "100%";
  
  const x = []; const y = []; const z = [];
  for (let i = -2.5; i <= 2.5; i += 0.15) x.push(i);
  for (let j = -2.5; j <= 2.5; j += 0.15) y.push(j);

  for (let j = 0; j < y.length; j++) {
    const row = [];
    for (let i = 0; i < x.length; i++) {
      const xv = x[i]; const yv = y[j];
      row.push(Math.pow(xv, 4) - 4 * Math.pow(xv, 2) + Math.pow(yv, 2) + 0.5 * xv);
    }
    z.push(row);
  }

  const surfaceTrace = {
    x: x, y: y, z: z,
    type: "surface", colorscale: "Viridis", showscale: false,
    opacity: 0.9
  };

  let ballTrace = {
    x: [2.2], y: [1.5], z: [7.9],
    mode: "markers", type: "scatter3d", name: "La Balle",
    marker: { size: 10, color: theme.red, symbol: "circle" }
  };

  let trailTrace = {
    x: [], y: [], z: [],
    mode: "lines", type: "scatter3d", name: "Trajectoire",
    line: { width: 4, color: theme.base3 }
  };

  const layout = {
    height: 350,
    autosize: true,
    showlegend: false,
    margin: { l: 30, r: 30, b: 30, t: 10 },
    paper_bgcolor: "rgba(0,0,0,0)",
    plot_bgcolor: "rgba(0,0,0,0)",
    scene: {
      xaxis: { title: "θ1" }, yaxis: { title: "θ2" }, zaxis: { title: "Coût" },
      camera: { eye: { x: -0.6, y: 2, z: 0.8 } }
    }
  };

  Plotly.newPlot(container, [surfaceTrace, trailTrace, ballTrace], layout, {responsive: true, displayModeBar: false});
  
  // Dynamic resize
  new ResizeObserver(() => Plotly.Plots.resize(container)).observe(container);

  // Nettoyage du timer précédent si la cellule re-run
  if (this && this.animationTimer) clearInterval(this.animationTimer);

  // Use viewof to access the DOM without triggering OJS reactivity on every slider change
  const button = (viewof controls).querySelector(".atom-btn");
  let animationTimer = null;

  button.onclick = () => {
    if (animationTimer) clearInterval(animationTimer);

    let cx = 2.2; let cy = 1.5;
    let vx = 0; let vy = 0;
    const lr = 0.03;
    const mom = (viewof controls).value.momentum;

    let pathX = [cx]; let pathY = [cy]; let pathV = [0];
    let pathZ = [Math.pow(cx, 4) - 4 * Math.pow(cx, 2) + Math.pow(cy, 2) + 0.5 * cx + 0.5];

    for (let i = 0; i < 250; i++) {
      let gradX = 4 * Math.pow(cx, 3) - 8 * cx + 0.5;
      let gradY = 2 * cy;
      vx = mom * vx + lr * gradX;
      vy = mom * vy + lr * gradY;
      cx = cx - vx; cy = cy - vy;
      if (cx < -2.5) cx = -2.5; if (cx > 2.5) cx = 2.5;
      if (cy < -2.5) cy = -2.5; if (cy > 2.5) cy = 2.5;
      let cz = Math.pow(cx, 4) - 4 * Math.pow(cx, 2) + Math.pow(cy, 2) + 0.5 * cx;
      pathX.push(cx); pathY.push(cy); pathZ.push(cz);
      pathV.push(Math.sqrt(vx*vx + vy*vy));
    }

    let frame = 0;
    animationTimer = setInterval(() => {
      if (frame >= pathX.length) {
        clearInterval(animationTimer);
        return;
      }
      ballTrace.x = [pathX[frame]];
      ballTrace.y = [pathY[frame]];
      ballTrace.z = [pathZ[frame]];
      trailTrace.x = pathX.slice(0, frame + 1);
      trailTrace.y = pathY.slice(0, frame + 1);
      trailTrace.z = pathZ.slice(0, frame + 1);
      Plotly.react(container, [surfaceTrace, trailTrace, ballTrace], layout);
      
      // Update monitor
      monitor_grad.cost.update(pathZ[frame].toFixed(4));
      monitor_grad.theta1.update(pathX[frame].toFixed(3));
      monitor_grad.theta2.update(pathY[frame].toFixed(3));
      monitor_grad.speed.update((pathV[frame] * 10).toFixed(2));
      
      frame++;
    }, 40);
  };

  return Object.assign(container, {animationTimer: animationTimer});
}

monitor_grad = {
  const m = ui.org.monitor({ header: "Métrique du Gradient" });
  m.cost = m.addValue("Coût", 0, { color: theme.red });
  m.theta1 = m.addValue("θ1", 0, { color: theme.blue });
  m.theta2 = m.addValue("θ2", 0, { color: theme.green });
  m.speed = m.addValue("Vitesse", 0, { color: theme.orange });
  return m;
}

L'importance du Learning Rate

Si \eta est trop grand, l’algorithme diverge et l’erreur explose.
Si \eta est trop petit, la convergence stagne sur les plateaux. En pratique, on utilise des Schedulers pour commencer avec un grand pas et s’affiner progressivement (IBM 2026).

1.5 🧹 L’Infrastructure de la Donnée

La qualité des données dicte la limite de performance théorique de tout modèle de Machine Learning. Un pipeline rigoureux s’articule autour de plusieurs opérations statistiques critiques (Grignola 2026).

1.5.1 🧼 Le Pipeline de Nettoyage Standard

Avant même de penser à l’intelligence artificielle, il faut s’assurer que les données qu’on lui fournit sont propres. Un modèle nourri avec des données erronées donnera des prédictions absurdes (le fameux principe du Garbage In, Garbage Out).

Voici les 3 étapes incontournables pour purifier vos données brutes :

Traitement des valeurs manquantes : On remplace les cases vides par l’imputation statistique (Moyenne \mu ou Médiane selon la distribution).
Détection des valeurs aberrantes (Outliers) : On filtre les erreurs de saisie ou les exceptions extrêmes.
Standardisation et Normalisation : On met les données à la même échelle pour empêcher les variables à forte amplitude de dominer l’apprentissage (CodeSignal Learn 2025).

Comment décider à partir de quand un point devient une “anomalie” ? Utilisez le simulateur ci-dessous qui génère un jeu de données “sale”.

Nettoyage Vectoriel

viewof clean_controls = {
  const methodInput = ui.toggle({
    label: "Méthode", 
    options: ["Z-Score", "IQR"], 
    value: "Z-Score",
    layout: "vertical",
    states: { "Z-Score": "info", "IQR": "success" }
  });
  
  const getSlider = (m) => m === "Z-Score" 
    ? ui.slider({label: "Seuil (Écarts-types Z)", value: 2.5, min: 0.5, max: 4, step: 0.1})
    : ui.slider({label: "Seuil (Mul IQR)", value: 1.5, min: 0.5, max: 4, step: 0.1});

  const sliderCont = html`<div style="flex: 1;"></div>`;
  let currentSlider = getSlider("Z-Score");
  sliderCont.appendChild(currentSlider);

  const container = html`<div style="display: flex; align-items: flex-start; gap: 40px; width: 100%; margin-bottom: 10px;">
    <div style="flex: 0 0 auto;">${methodInput}</div>
    ${sliderCont}
  </div>`;

  container.value = { method: "Z-Score", threshold: 2.5 };

  const sync = () => {
    container.value = { method: methodInput.value, threshold: currentSlider.value };
    container.dispatchEvent(new CustomEvent("input"));
  };

  methodInput.addEventListener("input", () => {
    sliderCont.innerHTML = "";
    currentSlider = getSlider(methodInput.value);
    sliderCont.appendChild(currentSlider);
    currentSlider.addEventListener("input", sync);
    sync();
  });

  currentSlider.addEventListener("input", sync);
  return container;
}

method = clean_controls.method
threshold = clean_controls.threshold

// 2. Génération unique du jeu de données (Cluster central + Anomalies)
raw_data = {
  const pts = [];
  // 100 points normaux (cluster autour de 50,50)
  for(let i=0; i<100; i++) {
    let u = 1 - Math.random(); let v = Math.random();
    let zx = Math.sqrt(-2.0 * Math.log(u)) * Math.cos(2.0 * Math.PI * v);
    let zy = Math.sqrt(-2.0 * Math.log(u)) * Math.sin(2.0 * Math.PI * v);
    pts.push({id: i, x: 50 + zx * 7, y: 50 + zy * 7});
  }
  // 15 anomalies réparties aléatoirement sur les bords
  for(let i=0; i<15; i++) {
    pts.push({
      id: 100+i, 
      x: Math.random() > 0.5 ? Math.random()*15 : 85 + Math.random()*15, 
      y: Math.random() > 0.5 ? Math.random()*15 : 85 + Math.random()*15
    });
  }
  return pts;
}

// 3. Calcul des frontières (La Boîte de Sécurité)
bounds = {
  const xs = raw_data.map(d => d.x).sort((a,b) => a-b);
  const ys = raw_data.map(d => d.y).sort((a,b) => a-b);
  let metrics = {};

  if (method === "Z-Score") {
    const meanX = xs.reduce((a,b)=>a+b)/xs.length;
    const meanY = ys.reduce((a,b)=>a+b)/ys.length;
    const stdX = Math.sqrt(xs.reduce((sq, n) => sq + Math.pow(n - meanX, 2), 0) / xs.length);
    const stdY = Math.sqrt(ys.reduce((sq, n) => sq + Math.pow(n - meanY, 2), 0) / ys.length);
    metrics = {
      type: "Z-Score",
      cx: meanX, cy: meanY,
      rx: threshold * stdX, ry: threshold * stdY,
      xMin: meanX - threshold * stdX, xMax: meanX + threshold * stdX,
      yMin: meanY - threshold * stdY, yMax: meanY + threshold * stdY
    };
  } else { // IQR
    const q1X = xs[Math.floor(xs.length * 0.25)];
    const q3X = xs[Math.floor(xs.length * 0.75)];
    const iqrX = q3X - q1X;
    const q1Y = ys[Math.floor(ys.length * 0.25)];
    const q3Y = ys[Math.floor(ys.length * 0.75)];
    const iqrY = q3Y - q1Y;
    metrics = {
      type: "IQR",
      xMin: q1X - threshold * iqrX, xMax: q3X + threshold * iqrX,
      yMin: q1Y - threshold * iqrY, yMax: q3Y + threshold * iqrY,
      innerX1: q1X, innerX2: q3X,
      innerY1: q1Y, innerY2: q3Y
    };
  }
  return metrics;
}

// 4. Application du filtre basé sur la frontière
processed_data = raw_data.map(d => {
  const isOutlier = d.x < bounds.xMin || d.x > bounds.xMax || d.y < bounds.yMin || d.y > bounds.yMax;
  
  // Nouveau : Détection du "Cœur" (Boîte verte IQR)
  let status = isOutlier ? "Anomalie" : "Conservé";
  if (method === "IQR" && !isOutlier) {
    const isCore = d.x >= bounds.innerX1 && d.x <= bounds.innerX2 && d.y >= bounds.innerY1 && d.y <= bounds.innerY2;
    if (isCore) status = "Cœur";
  }
  
  return {...d, status: status};
});

// 5. Statistiques dynamiques
stats = {
  const total = processed_data.length;
  const anomalies = processed_data.filter(d => d.status === "Anomalie").length;
  const kept = total - anomalies;
  return {total, kept, anomalies};
}

Plot.plot({
  height: 450,
  background: "transparent",
  grid: true,
  x: {domain: [0, 100], label: "Caractéristique 1 (Feature X)"},
  y: {domain: [0, 100], label: "Caractéristique 2 (Feature Y)"},
  color: {
    domain: ["Conservé", "Cœur", "Anomalie"], 
    range: [theme.blue, theme.green, theme.red], 
    legend: true
  },
  marks: [
    // 1. Zone de Sécurité (Frontière)
    Plot.rect([{x1: bounds.xMin, y1: bounds.yMin, x2: bounds.xMax, y2: bounds.yMax}], {
      x1: "x1", y1: "y1", x2: "x2", y2: "y2",
      fill: theme.blue, 
      fillOpacity: 0.05,
      stroke: theme.blue, 
      strokeWidth: 2, 
      strokeDasharray: "6,4"
    }),

    // 2. Marqueurs Spécifiques (Pédagogie)
    method === "IQR" ? [
      // Boîte Interquartile (Le cœur des données)
      Plot.rect([{x1: bounds.innerX1, y1: bounds.innerY1, x2: bounds.innerX2, y2: bounds.innerY2}], {
        x1: "x1", y1: "y1", x2: "x2", y2: "y2",
        fill: theme.green, fillOpacity: 0.2, stroke: theme.green, strokeWidth: 1
      }),
      Plot.text([{x: bounds.innerX1, y: bounds.innerY1, text: "Q1 / Q3 (Le Cœur)"}], {x: "x", y: "y", dy: -10, dx: 10, fontSize: 10, fill: theme.green})
    ] : [
      // Lignes de Moyenne (Le centre statistique)
      Plot.ruleX([bounds.cx], {stroke: theme.green, strokeOpacity: 0.6, strokeWidth: 2, strokeDasharray: "4,2"}),
      Plot.ruleY([bounds.cy], {stroke: theme.green, strokeOpacity: 0.6, strokeWidth: 2, strokeDasharray: "4,2"}),
      Plot.text([{x: bounds.cx, y: bounds.cy, text: "Moyenne (μ)"}], {x: "x", y: "y", dy: -10, dx: 10, fontSize: 10, fontWeight: "bold", fill: theme.green})
    ],
    
    // 3. Les points de données
    Plot.dot(processed_data, {
      x: "x", 
      y: "y", 
      fill: "status", 
      r: 5.5, 
      stroke: theme.base3, 
      strokeWidth: 0.5,
      title: (d) => `X: ${d.x.toFixed(1)}, Y: ${d.y.toFixed(1)}\nStatut: ${d.status}`
    })
  ]
})

viewof monitor_clean = {
  const m = ui.org.monitor({ header: "Résumé du Filtrage" });
  m.kept = m.addValue("Données propres", stats.kept, { color: theme.blue });
  m.anomalies = m.addValue("Anomalies", stats.anomalies, { color: theme.red });
  m.total = m.addValue("Total", stats.total, { color: theme.base1 });
  return m;
}

// Update loop for real-time changes
{
  monitor_clean.kept.update(stats.kept);
  monitor_clean.anomalies.update(stats.anomalies);
  monitor_clean.total.update(stats.total);
}

Z-Score vs IQR : Quelle différence sur le terrain ?

Bien que ces deux méthodes cherchent des anomalies, elles n’utilisent pas la même “boussole” mathématique :

Z-Score (Le Centre Statistique) : Il s’appuie sur la Moyenne (μ), représentée par la croix verte sur le graphique. Il calcule la distance de chaque point par rapport à ce centre. Attention : Si une erreur est vraiment gigantesque, elle va “tirer” la moyenne vers elle, déformant ainsi toute la zone de sécurité. Formule : Z = \frac{x - \mu}{\sigma}.
IQR (Le Cœur des Données) : Il s’appuie sur la Boîte Interquartile, le rectangle vert qui contient les 50 % des données les plus centrales (Q3 - Q1). Contrairement au Z-Score, l’IQR est robuste : même si un point est à des milliards de kilomètres, la boîte verte ne bougera pas d’un millimètre.

En résumé : Utilisez le Z-Score pour des données “propres” qui suivent une courbe en cloche (Gaussienne), et l’IQR quand vos données sont très “sales” ou asymétriques.

1.5.2 🐍 L’Arsenal Python

Pour traiter des millions de lignes sans lenteur, on utilise la vectorisation (LeoW 2018). NumPy exécute ses calculs en langage C de bas niveau, évitant les boucles Python natives lentes.

NumPy : La calculatrice ultra-rapide. Il applique des opérations mathématiques simultanément sur toute la mémoire.
Pandas : Le gestionnaire de tableaux (“Excel sous stéroïdes”). Construit sur NumPy, il permet de manipuler des DataFrames avec une API de haut niveau.

💻 Implémentation du Nettoyage par Z-Score

import pandas as pd
import numpy as np

# Importation vectorisée du dataset
df = pd.read_csv("dirty_rentals.csv")

# Imputation par la médiane (robuste aux asymétries)
mediane_surface = df['surface'].median()
df['surface'].fillna(mediane_surface, inplace=True)

# Détection vectorisée des outliers via NumPy
# On calcule l'écart-type et la moyenne sur l'axe entier en temps constant
df['z_score_prix'] = np.abs((df['prix'] - df['prix'].mean()) / df['prix'].std())

# Filtrage par masque booléen (garde les éléments sous le seuil critique de 3)
df_clean = df[df['z_score_prix'] < 3]

1.6 🌉 Conclusion et Transition

Maintenant que nous avons posé les fondations mathématiques de l’apprentissage et que nous savons préparer nos données brutes, nous sommes prêts à attaquer notre premier cas d’usage concret : apprendre à un modèle à “voir” et comprendre des images.

Ce sera l’objet du Chapitre 2 : Deep Learning & Vision.