2.1 KiB
2.1 KiB
title, created, updated, type, tags, confidence, contested, sources
| title | created | updated | type | tags | confidence | contested | sources | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Architecture Transformer | 2026-06-06 | 2026-06-06 | concept |
|
high | false |
|
🤖 Architecture Transformer
Définition Courte
Architecture de réseau de neurones introduite par Google en 2017 ("Attention Is All You Need") qui repose entièrement sur le mécanisme d'attention pour modéliser les relations dans les données séquentielles. C'est la base de TOUS les LLM modernes.
Explication Détaillée
Le Transformer a remplacé les RNN/LSTM grâce à deux innovations :
- Self-Attention : chaque token "regarde" tous les autres tokens de la séquence en parallèle, calculant une importance relative. Permet de comprendre le contexte global.
- Parallélisation totale : contrairement aux RNN (séquentiels), tout est calculé en parallèle
\rightarrowGPU-friendly, entraînement rapide.
Composants :
- Embeddings : token + positionnel.
- Encoder : traite l'entrée (utilisé par BERT, RoBERTa).
- Decoder : génère la sortie (utilisé par GPT, Llama, Mistral).
- Multi-Head Attention : plusieurs mécanismes d'attention en parallèle.
- Feed-Forward Layers : couches denses entre les attentions.
- LayerNorm + Residual Connections : stabilité de l'entraînement.
Variantes importantes :
- Encoder-only (BERT) : compréhension.
- Decoder-only (GPT, Llama) : génération. C'est ce qu'on appelle communément "LLM".
- Encoder-Decoder (T5, BART) : traduction, summarization.
Cas d'Usage
- Tous les LLM modernes (GPT, Claude, Llama, Mistral, Phi).
- Traduction automatique.
- Génération de code.
- Vision (ViT) et audio (Whisper) adaptés.
Outils Liés
- Implémentations de référence : PyTorch, JAX/TF.
- Bibliothèques : Hugging Face Transformers, llama.cpp (cf. llama-cpp).
Pages Liées
Questions Ouvertes
- Le Transformer va-t-il être remplacé par une nouvelle architecture (Mamba, RWKV) ?
- Combien de temps l'attention quadratique O(n²) reste-t-elle viable à très long contexte ?