wiki/concepts/glossaire-ia.md

---
title: Glossaire IA
created: 2026-06-06
updated: 2026-06-06
type: glossary
tags: [IA, glossary, tech]
confidence: high
contested: false
sources: [synthesized]
---
# 📖 Glossaire IA pour Dev / Self-Hosting

Définitions des termes essentiels pour comprendre et travailler avec l'Intelligence Artificielle localement.

- **LLM (Large Language Model)** : Modèle de langage de grande taille, capable de générer du texte, de raisonner et d'utiliser des outils.
- **Prompt** : L'instruction textuelle envoyée au modèle pour guider sa réponse.
- **Context Window** : La quantité maximale de texte (en tokens) qu'un modèle peut traiter en une seule fois (ex: 8k, 128k).
- **Token** : Unité de base du texte traité par le modèle (mot ou partie de mot).
- **Quantization** : Processus de réduction de la précision des poids d'un modèle (ex: de FP16 à Q4) pour économiser de la RAM/VRAM. Formats courants : [[gguf]], [[exl2]].
- **GGUF (GPT-Generated Unified Format)** : Format de fichier standard pour faire tourner des modèles via [[llama-cpp]] (utilisé par [[ollama]]).
- **Inference** : Le processus par lequel le modèle génère une réponse à partir d'un prompt.
- **Embeddings** : Représentation numérique (vecteur) d'un texte, permettant de calculer des similarités sémantiques (base du RAG).
- **RAG (Retrieval-Augmented Generation)** : Technique consistant à fournir à un LLM des documents pertinents récupérés dans une base de connaissances pour améliorer ses réponses.
- **Fine-Tuning** : Entraînement additionnel d'un modèle sur un dataset spécifique pour le spécialiser.
- **LoRA (Low-Rank Adaptation)** : Technique de fine-tuning léger ne modifiant qu'une petite partie des poids, plus rapide et moins coûteux.
- **Agent** : Programme qui utilise un LLM pour prendre des décisions et interagir avec des outils de manière autonome. Ex: [[hermes-agent]].
- **RAG vs Fine-Tuning** : Le RAG ajoute des connaissances à la volée, le fine-tuning modifie le comportement intrinsèque.
- **VRAM** : Mémoire vidéo (RAM GPU). Critique pour la vitesse d'inférence des modèles.
- **Hallucination** : Phénomène où le modèle invente des informations factuellement incorrectes.

## Liens
- Outils : [[ollama]], [[llama-cpp]], [[hermes-agent]]
- Modèles : [[llama-3-1]], [[mistral]]
- Architecture : [[transformer-architecture]]
- [[base-de-donnees-vectorielle]]
- [[tokenisation]]
- [[reinforcement-learning]]