2  👁️ Deep Learning & Vision

2.1 Perspective Historique

La vision par ordinateur s’est imposée comme le pont technologique entre la perception biologique et l’intelligence artificielle. En tant qu’architecte système, il ne faut pas voir cette discipline comme un simple algorithme de tri, mais comme une tentative complexe d’extraction automatisée et de compréhension sémantique à partir de flux visuels purs (Network Optix 2024).

Fukushima Le Neocognitron
Concept : Fukushima propose une architecture hiérarchique utilisant des “champs récepteurs” locaux. C’est le précurseur direct des CNN modernes.
Yann LeCun La Consécration Industrielle
Application : Stabilisation avec le modèle LeNet, utilisé par la poste américaine pour lire automatiquement les codes postaux. Première preuve de viabilité à grande échelle (Network Optix 2024).
Équipe Hinton La Révolution AlexNet
Basculement : AlexNet pulvérise les algorithmes traditionnels au concours ImageNet, prouvant que la profondeur (Deep Learning) est la clé (Wikipedia contributors 2026a).

2.1.1 La Rupture Stratégique

Avant le Deep Learning, les ingénieurs devaient créer mathématiquement leurs propres filtres (ex: filtre de Sobel pour les bords verticaux). Cette approche, le Feature Engineering manuel, était extrêmement limitée par l’intuition humaine.

La rupture fondamentale des Réseaux Convolutifs (CNN) réside dans le passage aux filtres appris par optimisation. Le réseau découvre par essai-erreur quels filtres mathématiques sont les plus pertinents pour extraire les caractéristiques d’une image (Wikipedia contributors 2026b).

2.2 🏗️ Fondamentaux et Supériorité des CNN sur les Modèles Traditionnels

Pourquoi ne pas simplement utiliser un réseau de neurones classique (MLP - Multi-Layer Perceptron) pour reconnaître des objets ? La réponse tient en un mot : le fléau de la dimensionnalité (Rosebrock 2021).

2.2.1 ❌ L’échec des réseaux classiques (MLP)

Dans un réseau classique, chaque neurone est connecté à tous les pixels. Imaginons une image de 250x250 pixels en couleur (RGB). L’explosion des paramètres rend l’apprentissage instable, lent et gourmand en mémoire vive

Le Fléau de la Dimensionnalité

2.2.2 🏛️ Les trois piliers stratégiques des CNN

Les CNN exploitent la structure spatiale via three propriétés (Gurucharan 2026; Wikipedia contributors 2026b) :

  1. Connectivité locale : Un neurone ne regarde qu’une petite zone limitée (champ récepteur), imitant le cortex visuel humain.
  2. Partage de poids : Le réseau utilise le même filtre sur toute la surface, réduisant les paramètres et détectant un motif n’importe où.
  3. Arrangement spatial en 3D : Les données circulent en tenseurs (Largeur x Hauteur x Profondeur des couleurs/filtres) (Rosebrock 2021).

2.3 🔍 Anatomie Technique d’un CNN

Un CNN transforme des pixels bruts en prédictions sémantiques.

2.3.1 🌀 Convolution et Pooling

La Couche de Convolution réalise un produit de Frobenius entre un noyau glissant et l’entrée pour extraire des traits. La Couche de Pooling (ex: Max Pooling) réduit la résolution spatiale pour contrôler le surapprentissage tout en conservant le signal le plus fort.

Max-Pooling : Distiller l'Essentiel

➡️

2.3.2 📐 Configuration Spatiale

Le dimensionnement d’un CNN repose sur une configuration géométrique stricte.

  • Stride (Pas) : Définit le saut du filtre. Un stride > 1 agit comme un compresseur de données.
  • Padding : Ajout de pixels aux bordures pour éviter la perte d’information sur les contours.
Règle d'or de l'Architecte : La Formule de Sortie

Pour une dimension d’entrée W, un filtre F, un padding P et un stride S, la taille de sortie est : \text{Sortie} = \frac{W - F + 2P}{S} + 1 Si le résultat n’est pas un entier, la configuration est invalide !

Calculateur de Sortie

2.4 Étude de Cas

Si l’on devait dater le début de l’ère moderne de l’IA, ce serait 2012 avec le réseau AlexNet qui a pulvérisé les modèles traditionnels au concours ImageNet (Wikipedia contributors 2026a).

  • L’adoption de ReLU : Contourne le vanishing gradient, entraînement beaucoup plus rapide (Gurucharan 2026).
  • L’invention du Dropout : Technique contre le surapprentissage.
  • L’entraînement Multi-GPU : Modèle scindé sur deux puces NVIDIA GTX 580 car trop lourd pour la VRAM de l’époque.
Anecdote d'Architecte : L'énigme des 224 pixels

Les tutoriels disent qu’AlexNet prend des images de 224x224. Mais avec un filtre de 11, un stride de 4 et un padding de 0, la formule (vue au-dessus) ne tombe pas juste ! En réalité, le réseau recadrait secrètement à 227x227 pixels pour satisfaire les mathématiques (Rosebrock 2021).

2.5 🚨 Défis Critiques

Un CNN moderne possède des millions de paramètres. S’il s’entraîne trop longtemps, il fait du Surapprentissage (Overfitting) : il mémorise par cœur le Train set, mais échoue sur le Test set (Great Learning Editorial Team 2025; Nerchuko Academy 2026).

2.5.1 🔌 Le Dropout (Le Décrochage)

Le Dropout désactive aléatoirement un certain pourcentage de neurones à chaque passage pour forcer le réseau à répartir la connaissance (Wikipedia contributors 2026b).

Contrôle du Dropout

2.5.2 🖼️ L’Augmentation de Données (Data Augmentation)

La meilleure façon de combattre le surapprentissage est d’appliquer des transformations aléatoires à vos images d’entraînement à la volée. Le modèle voit une image légèrement différente à chaque fois (Wikipedia contributors 2026b).

Augmentation de Données

2.6 Horizon Actuel

2.6.1 Le Nouveau Challenger

Contrairement aux CNN qui regardent l’image petit bout par petit bout, les Vision Transformers (ViT) découpent l’image en “patchs” et utilisent un mécanisme d’attention globale. Ils comparent chaque patch avec tous les autres simultanément (Network Optix 2024).

Comparaison Architecturale : Local vs Global

VS

Comparaison Architecturale : Local vs Global

Observez la différence de philosophie. À gauche, le CNN scanne laborieusement l’image. À droite, le Transformer connecte toutes les informations simultanément.

2.7 🎭 Les Réseaux Antagonistes Génératifs (GANs)

Si les CNN et les ViT excellent pour comprendre une image, les GANs (Generative Adversarial Networks) ont été les premiers à exceller pour en créer. Inventés en 2014 par Ian Goodfellow, les GANs reposent sur une idée brillante : mettre en compétition deux réseaux de neurones.

  • Le Générateur (Le Faussaire) : Il crée des images à partir de bruit aléatoire et essaie de les rendre les plus réalistes possibles.
  • Le Discriminateur (Le Policier) : Il reçoit à la fois de vraies images et des fausses images du Générateur, et doit deviner lesquelles sont réelles.

L’entraînement est un jeu du chat et de la souris : le générateur s’améliore pour tromper le discriminateur, et le discriminateur s’améliore pour ne plus se faire avoir.

Simulation : L'entraînement d'un GAN

Les GANs ont ouvert la voie aux “DeepFakes” et à la génération d’art avant d’être progressivement remplacés par les Modèles de Diffusion (comme Midjourney ou Stable Diffusion) qui sont plus stables à entraîner.

2.8 🌉 Conclusion et Transition

C’est d’ailleurs cette architecture Transformer qui a donné naissance à l’IA Générative et aux LLM. Les modèles ne se contentent plus de classifier des données, ils sont capables d’en créer de nouvelles.

Ce changement de paradigme nous amène directement à notre Chapitre 3 : GenAI & NLP !