wiki/concepts/tokenisation.md

---
title: Tokenisation
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, ML, tech]
confidence: high
contested: false
sources: [synthesized]
---
# ✂️ Tokenisation

## Définition Courte
Processus de **découpage d'un texte en unités atomiques** (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.

## Explication Détaillée
Un LLM ne lit pas des mots ou des caractères, mais des **tokens** (souvent des morceaux de mots). Les algorithmes les plus courants :
- **BPE (Byte Pair Encoding)** : utilisé par GPT, Llama, Mistral.
- **WordPiece** : utilisé par BERT.
- **SentencePiece** : BPE/ULM au niveau Unicode.
- **Unigram** : alternative probabiliste.

Exemples :
- "Bonjour" $\rightarrow$ ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle.
- "Intelligence Artificielle" $\rightarrow$ ["Intell", "igence", " Artif", "icielle"].

**Impact concret** : la tarification des API LLM est **au token** (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.

## Cas d'Usage
- Comptage de tokens pour facturation API.
- Découpage de documents longs pour le RAG (chunking).
- Calcul de la taille du contexte.
- Compatibilité inter-modèles (chaque modèle a son tokenizer).

## Outils Liés
- **tiktoken** (OpenAI).
- **Hugging Face Tokenizers**.
- **SentencePiece**.

## Pages Liées
- [[glossaire-ia]]
- [[rag]]
- [[transformer-architecture]]
- [[embeddings]]

## Questions Ouvertes
- Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
- Comment évaluer objectivement la qualité d'un tokenizer ?