Définitions des termes essentiels pour comprendre et travailler avec l'Intelligence Artificielle localement.
LLM (Large Language Model) : Modèle de langage de grande taille, capable de générer du texte, de raisonner et d'utiliser des outils.
Prompt : L'instruction textuelle envoyée au modèle pour guider sa réponse.
Context Window : La quantité maximale de texte (en tokens) qu'un modèle peut traiter en une seule fois (ex: 8k, 128k).
Token : Unité de base du texte traité par le modèle (mot ou partie de mot).
Quantization : Processus de réduction de la précision des poids d'un modèle (ex: de FP16 à Q4) pour économiser de la RAM/VRAM. Formats courants : gguf, exl2.
GGUF (GPT-Generated Unified Format) : Format de fichier standard pour faire tourner des modèles via llama-cpp (utilisé par ollama).
Inference : Le processus par lequel le modèle génère une réponse à partir d'un prompt.
Embeddings : Représentation numérique (vecteur) d'un texte, permettant de calculer des similarités sémantiques (base du RAG).
RAG (Retrieval-Augmented Generation) : Technique consistant à fournir à un LLM des documents pertinents récupérés dans une base de connaissances pour améliorer ses réponses.
Fine-Tuning : Entraînement additionnel d'un modèle sur un dataset spécifique pour le spécialiser.
LoRA (Low-Rank Adaptation) : Technique de fine-tuning léger ne modifiant qu'une petite partie des poids, plus rapide et moins coûteux.
Agent : Programme qui utilise un LLM pour prendre des décisions et interagir avec des outils de manière autonome. Ex: hermes-agent.
RAG vs Fine-Tuning : Le RAG ajoute des connaissances à la volée, le fine-tuning modifie le comportement intrinsèque.
VRAM : Mémoire vidéo (RAM GPU). Critique pour la vitesse d'inférence des modèles.
Hallucination : Phénomène où le modèle invente des informations factuellement incorrectes.