--- title: Architecture Transformer created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, architecture, model] confidence: high contested: false sources: [synthesized] --- # 🤖 Architecture Transformer ## Définition Courte Architecture de réseau de neurones introduite par Google en 2017 ("Attention Is All You Need") qui repose entièrement sur le mécanisme d'**attention** pour modéliser les relations dans les données séquentielles. C'est la base de TOUS les LLM modernes. ## Explication Détaillée Le Transformer a remplacé les RNN/LSTM grâce à deux innovations : - **Self-Attention** : chaque token "regarde" tous les autres tokens de la séquence en parallèle, calculant une importance relative. Permet de comprendre le contexte global. - **Parallélisation totale** : contrairement aux RNN (séquentiels), tout est calculé en parallèle $\rightarrow$ GPU-friendly, entraînement rapide. Composants : - **Embeddings** : token + positionnel. - **Encoder** : traite l'entrée (utilisé par BERT, RoBERTa). - **Decoder** : génère la sortie (utilisé par GPT, Llama, Mistral). - **Multi-Head Attention** : plusieurs mécanismes d'attention en parallèle. - **Feed-Forward Layers** : couches denses entre les attentions. - **LayerNorm + Residual Connections** : stabilité de l'entraînement. Variantes importantes : - **Encoder-only** (BERT) : compréhension. - **Decoder-only** (GPT, Llama) : génération. C'est ce qu'on appelle communément "LLM". - **Encoder-Decoder** (T5, BART) : traduction, summarization. ## Cas d'Usage - Tous les LLM modernes (GPT, Claude, Llama, Mistral, Phi). - Traduction automatique. - Génération de code. - Vision (ViT) et audio (Whisper) adaptés. ## Outils Liés - Implémentations de référence : PyTorch, JAX/TF. - Bibliothèques : Hugging Face Transformers, llama.cpp (cf. [[llama-cpp]]). ## Pages Liées - [[llama-3-1]], [[mistral]], [[phi-3-5]] - [[mixture-of-experts]] - [[tokenization]] - [[glossaire-ia]] ## Questions Ouvertes - Le Transformer va-t-il être remplacé par une nouvelle architecture (Mamba, RWKV) ? - Combien de temps l'attention quadratique O(n²) reste-t-elle viable à très long contexte ?