1.7 KiB
1.7 KiB
title, created, updated, type, tags, confidence, contested, sources
| title | created | updated | type | tags | confidence | contested | sources | ||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Tokenisation | 2026-06-06 | 2026-06-06 | concept |
|
high | false |
|
✂️ Tokenisation
Définition Courte
Processus de découpage d'un texte en unités atomiques (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.
Explication Détaillée
Un LLM ne lit pas des mots ou des caractères, mais des tokens (souvent des morceaux de mots). Les algorithmes les plus courants :
- BPE (Byte Pair Encoding) : utilisé par GPT, Llama, Mistral.
- WordPiece : utilisé par BERT.
- SentencePiece : BPE/ULM au niveau Unicode.
- Unigram : alternative probabiliste.
Exemples :
- "Bonjour"
\rightarrow["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle. - "Intelligence Artificielle"
\rightarrow["Intell", "igence", " Artif", "icielle"].
Impact concret : la tarification des API LLM est au token (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.
Cas d'Usage
- Comptage de tokens pour facturation API.
- Découpage de documents longs pour le RAG (chunking).
- Calcul de la taille du contexte.
- Compatibilité inter-modèles (chaque modèle a son tokenizer).
Outils Liés
- tiktoken (OpenAI).
- Hugging Face Tokenizers.
- SentencePiece.
Pages Liées
Questions Ouvertes
- Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
- Comment évaluer objectivement la qualité d'un tokenizer ?