Initial vault setup
This commit is contained in:
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: Tokenisation
|
||||
created: 2026-06-06
|
||||
updated: 2026-06-06
|
||||
type: concept
|
||||
tags: [IA, ML, tech]
|
||||
confidence: high
|
||||
contested: false
|
||||
sources: [synthesized]
|
||||
---
|
||||
# ✂️ Tokenisation
|
||||
|
||||
## Définition Courte
|
||||
Processus de **découpage d'un texte en unités atomiques** (tokens) que le modèle peut traiter. C'est l'interface entre le langage humain et les embeddings numériques.
|
||||
|
||||
## Explication Détaillée
|
||||
Un LLM ne lit pas des mots ou des caractères, mais des **tokens** (souvent des morceaux de mots). Les algorithmes les plus courants :
|
||||
- **BPE (Byte Pair Encoding)** : utilisé par GPT, Llama, Mistral.
|
||||
- **WordPiece** : utilisé par BERT.
|
||||
- **SentencePiece** : BPE/ULM au niveau Unicode.
|
||||
- **Unigram** : alternative probabiliste.
|
||||
|
||||
Exemples :
|
||||
- "Bonjour" $\rightarrow$ ["Bon", "jour"] (2 tokens) ou ["Bonjour"] (1 token) selon le modèle.
|
||||
- "Intelligence Artificielle" $\rightarrow$ ["Intell", "igence", " Artif", "icielle"].
|
||||
|
||||
**Impact concret** : la tarification des API LLM est **au token** (entrée + sortie). Comprendre la tokenisation permet d'optimiser les coûts et de maîtriser la fenêtre de contexte.
|
||||
|
||||
## Cas d'Usage
|
||||
- Comptage de tokens pour facturation API.
|
||||
- Découpage de documents longs pour le RAG (chunking).
|
||||
- Calcul de la taille du contexte.
|
||||
- Compatibilité inter-modèles (chaque modèle a son tokenizer).
|
||||
|
||||
## Outils Liés
|
||||
- **tiktoken** (OpenAI).
|
||||
- **Hugging Face Tokenizers**.
|
||||
- **SentencePiece**.
|
||||
|
||||
## Pages Liées
|
||||
- [[glossaire-ia]]
|
||||
- [[rag]]
|
||||
- [[transformer-architecture]]
|
||||
- [[embeddings]]
|
||||
|
||||
## Questions Ouvertes
|
||||
- Pourquoi les modèles ne s'alignent-ils pas sur un tokenizer universel (gain de 10-30%) ?
|
||||
- Comment évaluer objectivement la qualité d'un tokenizer ?
|
||||
Reference in New Issue
Block a user