Initial vault setup

2026-06-09 18:40:21 +02:00
commit bda02d587f
3692 changed files with 402457 additions and 0 deletions
@@ -0,0 +1,48 @@
+---
+title: Tokenisation
+created: 2026-06-06
+updated: 2026-06-06
+type: concept
+tags: [IA, ML, tech]
+confidence: high
+contested: false
+sources: [synthesized]
+---
+# ✂️ Tokenisation
+
+## Définition Courte
+Processus de **découpage d'un texte en unités atomiques** (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.
+
+## Explication Détaillée
+Un LLM ne lit pas des mots ou des caractères, mais des **tokens** (souvent des morceaux de mots). Les algorithmes les plus courants :
+- **BPE (Byte Pair Encoding)** : utilisé par GPT, Llama, Mistral.
+- **WordPiece** : utilisé par BERT.
+- **SentencePiece** : BPE/ULM au niveau Unicode.
+- **Unigram** : alternative probabiliste.
+
+Exemples :
+- "Bonjour" $\rightarrow$ ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle.
+- "Intelligence Artificielle" $\rightarrow$ ["Intell", "igence", " Artif", "icielle"].
+
+**Impact concret** : la tarification des API LLM est **au token** (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.
+
+## Cas d'Usage
+- Comptage de tokens pour facturation API.
+- Découpage de documents longs pour le RAG (chunking).
+- Calcul de la taille du contexte.
+- Compatibilité inter-modèles (chaque modèle a son tokenizer).
+
+## Outils Liés
+- **tiktoken** (OpenAI).
+- **Hugging Face Tokenizers**.
+- **SentencePiece**.
+
+## Pages Liées
+- [[glossaire-ia]]
+- [[rag]]
+- [[transformer-architecture]]
+- [[embeddings]]
+
+## Questions Ouvertes
+- Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
+- Comment évaluer objectivement la qualité d'un tokenizer ?