Files
wiki/concepts/transformer-architecture.md
T
2026-06-09 18:40:21 +02:00

2.1 KiB

title, created, updated, type, tags, confidence, contested, sources
title created updated type tags confidence contested sources
Architecture Transformer 2026-06-06 2026-06-06 concept
IA
architecture
model
high false
synthesized

🤖 Architecture Transformer

Définition Courte

Architecture de réseau de neurones introduite par Google en 2017 ("Attention Is All You Need") qui repose entièrement sur le mécanisme d'attention pour modéliser les relations dans les données séquentielles. C'est la base de TOUS les LLM modernes.

Explication Détaillée

Le Transformer a remplacé les RNN/LSTM grâce à deux innovations :

  • Self-Attention : chaque token "regarde" tous les autres tokens de la séquence en parallèle, calculant une importance relative. Permet de comprendre le contexte global.
  • Parallélisation totale : contrairement aux RNN (séquentiels), tout est calculé en parallèle \rightarrow GPU-friendly, entraînement rapide.

Composants :

  • Embeddings : token + positionnel.
  • Encoder : traite l'entrée (utilisé par BERT, RoBERTa).
  • Decoder : génère la sortie (utilisé par GPT, Llama, Mistral).
  • Multi-Head Attention : plusieurs mécanismes d'attention en parallèle.
  • Feed-Forward Layers : couches denses entre les attentions.
  • LayerNorm + Residual Connections : stabilité de l'entraînement.

Variantes importantes :

  • Encoder-only (BERT) : compréhension.
  • Decoder-only (GPT, Llama) : génération. C'est ce qu'on appelle communément "LLM".
  • Encoder-Decoder (T5, BART) : traduction, summarization.

Cas d'Usage

  • Tous les LLM modernes (GPT, Claude, Llama, Mistral, Phi).
  • Traduction automatique.
  • Génération de code.
  • Vision (ViT) et audio (Whisper) adaptés.

Outils Liés

  • Implémentations de référence : PyTorch, JAX/TF.
  • Bibliothèques : Hugging Face Transformers, llama.cpp (cf. llama-cpp).

Pages Liées

Questions Ouvertes

  • Le Transformer va-t-il être remplacé par une nouvelle architecture (Mamba, RWKV) ?
  • Combien de temps l'attention quadratique O(n²) reste-t-elle viable à très long contexte ?