Initial vault setup

This commit is contained in:
2026-06-09 18:40:21 +02:00
commit bda02d587f
3692 changed files with 402457 additions and 0 deletions
+48
View File
@@ -0,0 +1,48 @@
---
title: Tokenisation
created: 2026-06-06
updated: 2026-06-06
type: concept
tags: [IA, ML, tech]
confidence: high
contested: false
sources: [synthesized]
---
# ✂️ Tokenisation
## Définition Courte
Processus de **découpage d'un texte en unités atomiques** (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.
## Explication Détaillée
Un LLM ne lit pas des mots ou des caractères, mais des **tokens** (souvent des morceaux de mots). Les algorithmes les plus courants :
- **BPE (Byte Pair Encoding)** : utilisé par GPT, Llama, Mistral.
- **WordPiece** : utilisé par BERT.
- **SentencePiece** : BPE/ULM au niveau Unicode.
- **Unigram** : alternative probabiliste.
Exemples :
- "Bonjour" $\rightarrow$ ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle.
- "Intelligence Artificielle" $\rightarrow$ ["Intell", "igence", " Artif", "icielle"].
**Impact concret** : la tarification des API LLM est **au token** (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.
## Cas d'Usage
- Comptage de tokens pour facturation API.
- Découpage de documents longs pour le RAG (chunking).
- Calcul de la taille du contexte.
- Compatibilité inter-modèles (chaque modèle a son tokenizer).
## Outils Liés
- **tiktoken** (OpenAI).
- **Hugging Face Tokenizers**.
- **SentencePiece**.
## Pages Liées
- [[glossaire-ia]]
- [[rag]]
- [[transformer-architecture]]
- [[embeddings]]
## Questions Ouvertes
- Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
- Comment évaluer objectivement la qualité d'un tokenizer ?