Files
wiki/concepts/tokenisation.md
T
2026-06-09 18:40:21 +02:00

1.7 KiB

title, created, updated, type, tags, confidence, contested, sources
title created updated type tags confidence contested sources
Tokenisation 2026-06-06 2026-06-06 concept
IA
ML
tech
high false
synthesized

✂️ Tokenisation

Définition Courte

Processus de découpage d'un texte en unités atomiques (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.

Explication Détaillée

Un LLM ne lit pas des mots ou des caractères, mais des tokens (souvent des morceaux de mots). Les algorithmes les plus courants :

  • BPE (Byte Pair Encoding) : utilisé par GPT, Llama, Mistral.
  • WordPiece : utilisé par BERT.
  • SentencePiece : BPE/ULM au niveau Unicode.
  • Unigram : alternative probabiliste.

Exemples :

  • "Bonjour" \rightarrow ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle.
  • "Intelligence Artificielle" \rightarrow ["Intell", "igence", " Artif", "icielle"].

Impact concret : la tarification des API LLM est au token (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.

Cas d'Usage

  • Comptage de tokens pour facturation API.
  • Découpage de documents longs pour le RAG (chunking).
  • Calcul de la taille du contexte.
  • Compatibilité inter-modèles (chaque modèle a son tokenizer).

Outils Liés

  • tiktoken (OpenAI).
  • Hugging Face Tokenizers.
  • SentencePiece.

Pages Liées

Questions Ouvertes

  • Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
  • Comment évaluer objectivement la qualité d'un tokenizer ?