🤖 Architecture Transformer

Définition Courte

Architecture de réseau de neurones introduite par Google en 2017 ("Attention Is All You Need") qui repose entièrement sur le mécanisme d'attention pour modéliser les relations dans les données séquentielles. C'est la base de TOUS les LLM modernes.

Explication Détaillée

Le Transformer a remplacé les RNN/LSTM grâce à deux innovations :

Self-Attention : chaque token "regarde" tous les autres tokens de la séquence en parallèle, calculant une importance relative. Permet de comprendre le contexte global.
Parallélisation totale : contrairement aux RNN (séquentiels), tout est calculé en parallèle \rightarrow GPU-friendly, entraînement rapide.

Composants :

Embeddings : token + positionnel.
Encoder : traite l'entrée (utilisé par BERT, RoBERTa).
Decoder : génère la sortie (utilisé par GPT, Llama, Mistral).
Multi-Head Attention : plusieurs mécanismes d'attention en parallèle.
Feed-Forward Layers : couches denses entre les attentions.
LayerNorm + Residual Connections : stabilité de l'entraînement.

Variantes importantes :

Encoder-only (BERT) : compréhension.
Decoder-only (GPT, Llama) : génération. C'est ce qu'on appelle communément "LLM".
Encoder-Decoder (T5, BART) : traduction, summarization.

Cas d'Usage

Tous les LLM modernes (GPT, Claude, Llama, Mistral, Phi).
Traduction automatique.
Génération de code.
Vision (ViT) et audio (Whisper) adaptés.

Outils Liés

Implémentations de référence : PyTorch, JAX/TF.
Bibliothèques : Hugging Face Transformers, llama.cpp (cf. llama-cpp).

Pages Liées

Questions Ouvertes

Le Transformer va-t-il être remplacé par une nouvelle architecture (Mamba, RWKV) ?
Combien de temps l'attention quadratique O(n²) reste-t-elle viable à très long contexte ?

2.1 KiB Raw Blame History