--- title: Tokenisation created: 2026-06-06 updated: 2026-06-06 type: concept tags: [IA, ML, tech] confidence: high contested: false sources: [synthesized] --- # ✂️ Tokenisation ## Définition Courte Processus de **découpage d'un texte en unités atomiques** (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques. ## Explication Détaillée Un LLM ne lit pas des mots ou des caractères, mais des **tokens** (souvent des morceaux de mots). Les algorithmes les plus courants : - **BPE (Byte Pair Encoding)** : utilisé par GPT, Llama, Mistral. - **WordPiece** : utilisé par BERT. - **SentencePiece** : BPE/ULM au niveau Unicode. - **Unigram** : alternative probabiliste. Exemples : - "Bonjour" $\rightarrow$ ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle. - "Intelligence Artificielle" $\rightarrow$ ["Intell", "igence", " Artif", "icielle"]. **Impact concret** : la tarification des API LLM est **au token** (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte. ## Cas d'Usage - Comptage de tokens pour facturation API. - Découpage de documents longs pour le RAG (chunking). - Calcul de la taille du contexte. - Compatibilité inter-modèles (chaque modèle a son tokenizer). ## Outils Liés - **tiktoken** (OpenAI). - **Hugging Face Tokenizers**. - **SentencePiece**. ## Pages Liées - [[glossaire-ia]] - [[rag]] - [[transformer-architecture]] - [[embeddings]] ## Questions Ouvertes - Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ? - Comment évaluer objectivement la qualité d'un tokenizer ?