49 lines
1.7 KiB
Markdown
49 lines
1.7 KiB
Markdown
---
|
|
title: Tokenisation
|
|
created: 2026-06-06
|
|
updated: 2026-06-06
|
|
type: concept
|
|
tags: [IA, ML, tech]
|
|
confidence: high
|
|
contested: false
|
|
sources: [synthesized]
|
|
---
|
|
# ✂️ Tokenisation
|
|
|
|
## Définition Courte
|
|
Processus de **découpage d'un texte en unités atomiques** (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.
|
|
|
|
## Explication Détaillée
|
|
Un LLM ne lit pas des mots ou des caractères, mais des **tokens** (souvent des morceaux de mots). Les algorithmes les plus courants :
|
|
- **BPE (Byte Pair Encoding)** : utilisé par GPT, Llama, Mistral.
|
|
- **WordPiece** : utilisé par BERT.
|
|
- **SentencePiece** : BPE/ULM au niveau Unicode.
|
|
- **Unigram** : alternative probabiliste.
|
|
|
|
Exemples :
|
|
- "Bonjour" $\rightarrow$ ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle.
|
|
- "Intelligence Artificielle" $\rightarrow$ ["Intell", "igence", " Artif", "icielle"].
|
|
|
|
**Impact concret** : la tarification des API LLM est **au token** (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.
|
|
|
|
## Cas d'Usage
|
|
- Comptage de tokens pour facturation API.
|
|
- Découpage de documents longs pour le RAG (chunking).
|
|
- Calcul de la taille du contexte.
|
|
- Compatibilité inter-modèles (chaque modèle a son tokenizer).
|
|
|
|
## Outils Liés
|
|
- **tiktoken** (OpenAI).
|
|
- **Hugging Face Tokenizers**.
|
|
- **SentencePiece**.
|
|
|
|
## Pages Liées
|
|
- [[glossaire-ia]]
|
|
- [[rag]]
|
|
- [[transformer-architecture]]
|
|
- [[embeddings]]
|
|
|
|
## Questions Ouvertes
|
|
- Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
|
|
- Comment évaluer objectivement la qualité d'un tokenizer ?
|