---
title: Architecture Transformer
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, architecture, model]
confidence: high
contested: false
sources: [synthesized]
---
# 🤖 Architecture Transformer

## Définition Courte
Architecture de réseau de neurones introduite par Google en 2017 ("Attention Is All You Need") qui repose entièrement sur le mécanisme d'**attention** pour modéliser les relations dans les données séquentielles. C'est la base de TOUS les LLM modernes.

## Explication Détaillée
Le Transformer a remplacé les RNN/LSTM grâce à deux innovations :
- **Self-Attention** : chaque token "regarde" tous les autres tokens de la séquence en parallèle, calculant une importance relative. Permet de comprendre le contexte global.
- **Parallélisation totale** : contrairement aux RNN (séquentiels), tout est calculé en parallèle $\rightarrow$ GPU-friendly, entraînement rapide.

Composants :
- **Embeddings** : token + positionnel.
- **Encoder** : traite l'entrée (utilisé par BERT, RoBERTa).
- **Decoder** : génère la sortie (utilisé par GPT, Llama, Mistral).
- **Multi-Head Attention** : plusieurs mécanismes d'attention en parallèle.
- **Feed-Forward Layers** : couches denses entre les attentions.
- **LayerNorm + Residual Connections** : stabilité de l'entraînement.

Variantes importantes :
- **Encoder-only** (BERT) : compréhension.
- **Decoder-only** (GPT, Llama) : génération. C'est ce qu'on appelle communément "LLM".
- **Encoder-Decoder** (T5, BART) : traduction, summarization.

## Cas d'Usage
- Tous les LLM modernes (GPT, Claude, Llama, Mistral, Phi).
- Traduction automatique.
- Génération de code.
- Vision (ViT) et audio (Whisper) adaptés.

## Outils Liés
- Implémentations de référence : PyTorch, JAX/TF.
- Bibliothèques : Hugging Face Transformers, llama.cpp (cf. [[llama-cpp]]).

## Pages Liées
- [[llama-3-1]], [[mistral]], [[phi-3-5]]
- [[mixture-of-experts]]
- [[tokenization]]
- [[glossaire-ia]]

## Questions Ouvertes
- Le Transformer va-t-il être remplacé par une nouvelle architecture (Mamba, RWKV) ?
- Combien de temps l'attention quadratique O(n²) reste-t-elle viable à très long contexte ?