✂️ Tokenisation

Définition Courte

Processus de découpage d'un texte en unités atomiques (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.

Explication Détaillée

Un LLM ne lit pas des mots ou des caractères, mais des tokens (souvent des morceaux de mots). Les algorithmes les plus courants :

BPE (Byte Pair Encoding) : utilisé par GPT, Llama, Mistral.
WordPiece : utilisé par BERT.
SentencePiece : BPE/ULM au niveau Unicode.
Unigram : alternative probabiliste.

Exemples :

"Bonjour" \rightarrow ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle.
"Intelligence Artificielle" \rightarrow ["Intell", "igence", " Artif", "icielle"].

Impact concret : la tarification des API LLM est au token (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.

Cas d'Usage

Comptage de tokens pour facturation API.
Découpage de documents longs pour le RAG (chunking).
Calcul de la taille du contexte.
Compatibilité inter-modèles (chaque modèle a son tokenizer).

Outils Liés

tiktoken (OpenAI).
Hugging Face Tokenizers.
SentencePiece.

Pages Liées

Questions Ouvertes

Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
Comment évaluer objectivement la qualité d'un tokenizer ?

1.7 KiB Raw Blame History