wiki: 2026-06-12_1926

2026-06-12 19:26:55 +02:00
parent 250bc8bef6
commit e7b0b6c1be
30 changed files with 1710 additions and 3 deletions
@@ -0,0 +1,46 @@
+---
+title: Command A
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, agent]
+sources:
+  - https://docs.cohere.com/docs/command-a
+  - https://docs.cohere.com/docs/models
+  - https://cohere.com/blog/command-a
+confidence: medium
+contested: false
+---
+# 🛰️ Command A
+
+Modèle propriétaire de Cohere lancé en mars 2025, pensé pour les usages entreprise orientés agents, RAG, multilingue et usage d'outils. Command A se place comme successeur pratique de la lignée Command R/Command R+, avec un accent fort sur l'efficacité d'inférence et le déploiement sur peu de GPU.
+
+## Spécifications
+| Variante | Paramètres | Contexte | Sortie max | Usage |
+|:---|:---:|:---:|:---:|:---|
+| Command A (`command-a-03-2025`) | 111B | 256k | 8k | Agents, RAG, outils, multilingue |
+| Command A Reasoning | n.d. | 256k | 32k | Raisonnement nuancé, agents |
+| Command A Vision | n.d. | 128k | 8k | Vision entreprise, OCR, tableaux |
+| Command A+ | MoE | 128k | 64k | Vision + agents + traduction |
+
+## Architecture
+- **Type** : modèle propriétaire de type [[transformer-architecture]]; Cohere ne publie pas le détail complet des blocs internes pour Command A.
+- **Taille** : **111 milliards** de paramètres pour la version de base annoncée.
+- **Efficacité** : Cohere affirme que Command A ne requiert que **2 GPU A100/H100** pour tourner et offre **150% de throughput supplémentaire** face à Command R+ 08-2024.
+- **Agentique** : optimisé pour outillage, REACT, RAG et appels vers API, bases vectorielles ou moteurs de recherche via schémas proches de [[function-calling]].
+- **Langues** : entraîné pour bien fonctionner dans **23 langues**, avec bonnes capacités cross-linguales et traduction.
+
+## Performances
+- Cohere positionne Command A comme son modèle le plus performant de 2025 sur tâches réelles d'entreprise.
+- Le message central n'est pas seulement la qualité brute, mais le ratio **capacité / coût / débit** pour agents déployables.
+- Cohere le compare favorablement à GPT-4o et DeepSeek-V3 sur plusieurs tâches agentiques d'entreprise.
+- Ses points forts déclarés sont l'usage d'outils, la sélection pertinente des appels externes, la tenue de longs contextes et les workflows RAG avec [[embeddings]].
+
+## Licence & Disponibilité
+- **Licence** : propriétaire, pas de poids ouverts pour Command A classique.
+- **Disponibilité** : Cohere Platform, SDK, Azure AI Foundry, Oracle OCI; la fiche modèles Cohere mentionne Bedrock comme « coming soon » pour `command-a-03-2025`.
+- **Identifiant** : `command-a-03-2025`.
+- **Prix** : la documentation récupérée confirme le contexte et la disponibilité, mais pas un tableau tarifaire officiel détaillé sur la page modèle; le prix exact doit être revalidé côté console Cohere avant archivage financier.
+
+## Pages Liées
+[[llama-4]] [[qwen-3-7]] [[claude-4]] [[gpt-5]] [[mcp-protocol]] [[function-calling]] [[fine-tuning]] [[transformer-architecture]] [[embeddings]]
@@ -0,0 +1,51 @@
+---
+title: Command R+
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, agent]
+sources:
+  - https://docs.cohere.com/docs/command-r-plus
+  - https://docs.cohere.com/v2/changelog/command-gets-refreshed
+  - https://docs.cohere.com/docs/models
+confidence: medium
+contested: false
+---
+# 🛰️ Command R+
+
+Modèle propriétaire de Cohere lancé en 2024 pour les conversations longues, le **RAG complexe** et l’usage d’outils en plusieurs étapes. **Command R+** a été l’un des modèles phares de Cohere avant d’être progressivement dépassé dans leur gamme par [[command-a]], mais il reste une référence importante pour les agents entreprise et les workflows multilingues centrés sur le texte.
+
+## Spécifications
+| Élément | Détail |
+|:---|:---|
+| Identifiant principal récent | `command-r-plus-08-2024` |
+| Variante antérieure | `command-r-plus-04-2024` |
+| Alias historique | `command-r-plus` |
+| Modalité | Texte |
+| Fenêtre de contexte | **128 000 tokens** |
+| Sortie maximale | **4 000 tokens** |
+| Langues | 23 langues couvertes, avec 10 langues fortement optimisées |
+| Tarification 08-2024 | **$2.50 / 1M tokens en entrée**, **$10.00 / 1M en sortie** |
+| Endpoint | Chat |
+
+## Architecture
+- **Type** : grand modèle propriétaire de génération textuelle, de famille transformeur, optimisé pour la conversation, le grounding documentaire et les usages agentiques.
+- **Positionnement** : Cohere le recommande pour les usages nécessitant **RAG complexe** et **multi-step tool use**, là où [[command-a]] devient le successeur généraliste plus récent.
+- **Multilingue** : le modèle est annoncé comme optimisé pour l’anglais, le français, l’espagnol, l’italien, l’allemand, le portugais brésilien, le japonais, le coréen, le chinois simplifié et l’arabe, avec pré-entraînement additionnel sur 13 autres langues.
+- **Grounding** : support du RAG avec citations pour les générations en anglais; la mise à jour d’août 2024 ajoute aussi des workflows RAG où les citations peuvent être désactivées.
+- **Outillage** : prise en charge de l’usage d’outils en **plusieurs étapes**, avec sélection de fonctions/outils et réutilisation des sorties intermédiaires pour des agents simples.
+
+## Performances
+- Cohere présente Command R+ comme un modèle de production très solide pour les tâches de conversation d’entreprise, les chaînes RAG longues et les outils.
+- La mise à jour **08-2024** est annoncée avec **~50% de throughput en plus** et **25% de latence en moins** par rapport à la version précédente, à empreinte matérielle inchangée.
+- Les améliorations communiquées portent sur le choix de l’outil pertinent, le suivi d’instructions système, l’analyse de données structurées, la robustesse aux variations non sémantiques du prompt et la capacité à refuser les questions non répondables.
+- Son intérêt historique est aussi d’avoir servi de base de comparaison interne avant l’arrivée de [[command-a]], que Cohere recommande désormais pour la plupart des nouveaux cas d’usage.
+
+## Licence & Disponibilité
+- **Licence** : propriétaire; poids non ouverts.
+- **Disponibilité** : Cohere Platform et intégrations cloud listées dans la page d’overview, notamment Amazon Bedrock, SageMaker, Azure et Oracle selon le déploiement.
+- **Statut** : `command-r-plus-08-2024` est listé comme **Live**; les anciennes versions `command-r-plus-04-2024` et l’alias `command-r-plus` sont indiqués comme **deprecated** depuis septembre 2025 dans l’overview Cohere.
+- **Connaissances** : la documentation Command R+ indique un entraînement sur des données allant jusqu’à **février 2023**, ce qui rend le RAG ou l’accès à des sources externes important pour l’actualité.
+
+## Pages Liées
+[[command-a]] [[gpt-5]] [[claude-4]] [[llama-4]] [[qwen-3-7]]
@@ -0,0 +1,46 @@
+---
+title: DeepSeek R1
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, reasoning, open-source, chinese]
+sources: [web research]
+confidence: medium
+contested: false
+---
+# 🧠 DeepSeek R1
+
+Modèle de raisonnement open-weight de **DeepSeek**, publié en janvier 2025. Il reprend la base MoE de la lignée V3, puis ajoute une chaîne d'entraînement orientée raisonnement avec *cold start*, SFT et RL. Il est surtout connu pour avoir popularisé un positionnement « open o1-like » sur les tâches de maths, code et raisonnement long.
+
+## Spécifications
+| Élément | Valeur |
+|:---|:---|
+| Paramètres totaux | 671B (≈685B affichés sur Hugging Face) |
+| Paramètres actifs | 37B |
+| Contexte | 128K tokens |
+| Génération max recommandée | 32 768 tokens |
+| Famille | Modèle de raisonnement dérivé de DeepSeek V3 |
+
+## Architecture
+- **Type** : [[transformer-architecture]] de type MoE, avec architecture de base partagée avec la série V3
+- **Entraînement** : pipeline en 4 étapes : *cold-start SFT*, RL orienté raisonnement, SFT par rejet/curation, puis RL d'alignement plus général
+- **Origine technique** : DeepSeek indique que R1 est construit sur **DeepSeek-V3-Base**
+- **Particularité** : privilégie le zéro-shot ; le papier note que le few-shot peut dégrader les performances
+- **Écosystème** : a servi de source de distillation pour plusieurs variantes Qwen et Llama
+
+## Performances
+- **MMLU** : 90.8 ; **MMLU-Pro** : 84.0 ; **GPQA-Diamond** : 71.5
+- **AIME 2024** : 79.8 ; **MATH-500** : 97.3 ; **CNMO 2024** : 78.8
+- **LiveCodeBench (Pass@1-COT)** : 65.9 ; **Codeforces** : 96.3 percentile / 2029 Elo
+- **SWE Verified** : 49.2 ; **Aider-Polyglot** : 53.3
+- **AlpacaEval 2.0** : 87.6 ; **ArenaHard** : 92.3
+- Se positionne comme référence ouverte antérieure à [[deepseek-v4]] et reste souvent comparé à [[llama-4]] et [[qwen-3-7]]
+
+## Licence & Disponibilité
+- **Licence** : MIT pour le dépôt et les poids ; usage commercial autorisé selon la documentation officielle
+- **Poids** : disponibles sur Hugging Face (`deepseek-ai/DeepSeek-R1`) ; variantes distillées publiées séparément
+- **API** : diffusé via DeepSeek Platform et plusieurs agrégateurs ; contexte API souvent étendu selon le fournisseur
+- **Disponibilité** : modèle ouvert, exploitable en self-hosting via vLLM, SGLang et autres stacks compatibles
+
+## Pages Liées
+[[deepseek-v4]] [[deepseek-v4-flash]] [[llama-4]] [[qwen-3-7]] [[function-calling]] [[transformer-architecture]]
@@ -0,0 +1,47 @@
+---
+title: DeepSeek V3.1
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, hybrid-reasoning, open-source, chinese]
+sources: [web research]
+confidence: medium
+contested: false
+---
+# ⚙️ DeepSeek V3.1
+
+Modèle hybride open-weight de **DeepSeek**, lancé en août 2025. Sa particularité est d'unifier un mode *thinking* et un mode *non-thinking* dans un même checkpoint, avec sélection par *chat template*. Il vise un compromis entre vitesse, qualité générale, usage d'outils et performances agentiques.
+
+## Spécifications
+| Élément | Valeur |
+|:---|:---|
+| Paramètres totaux | 671B (≈685B affichés par certaines interfaces) |
+| Paramètres actifs | 37B |
+| Contexte | 128K tokens |
+| Modes | Thinking + non-thinking dans un seul modèle |
+| Date de sortie | 2025-08-21 |
+
+## Architecture
+- **Type** : [[transformer-architecture]] MoE de grande taille, post-entraîné à partir de **DeepSeek-V3.1-Base**
+- **Long contexte** : extension 32K portée à **630B tokens** et extension 128K portée à **209B tokens**
+- **Format numérique** : DeepSeek met en avant un entraînement en **UE8M0 FP8** pour les poids et activations
+- **Mode hybride** : changement de comportement via template, sans checkpoint séparé pour le raisonnement
+- **Outils** : support explicite du [[function-calling]] en mode non-thinking, plus scénarios agentiques de recherche et de code
+
+## Performances
+- **MMLU-Redux** : 91.8 en non-thinking, 93.7 en thinking
+- **MMLU-Pro** : 83.7 / 84.8 ; **GPQA-Diamond** : 74.9 / 80.1
+- **LiveCodeBench** : 56.4 / 74.8 ; **Aider-Polyglot** : 68.4 / 76.3
+- **Codeforces Div1** : 2091 en mode thinking
+- **SWE Verified (agent mode)** : 66.0 ; **SWE-bench Multilingual** : 54.5 ; **Terminal-bench** : 31.3
+- **AIME 2024** : 66.3 / 93.1 ; **AIME 2025** : 49.8 / 88.4 ; **HMMT 2025** : 33.5 / 84.2
+- En pratique, le mode thinking se rapproche de **DeepSeek R1 0528** tout en répondant plus vite selon DeepSeek
+
+## Licence & Disponibilité
+- **Licence** : MIT pour les poids et le dépôt officiel
+- **Poids** : disponibles sur Hugging Face et ModelScope (`deepseek-ai/DeepSeek-V3.1`)
+- **API** : exposé sur DeepSeek Platform et chez divers fournisseurs ; prix observés autour de **$0.56 / $1.67** par million de tokens selon Artificial Analysis
+- **Positionnement** : open-weight polyvalent, plus récent que R1 et antérieur à [[deepseek-v4]] / [[deepseek-v4-flash]]
+
+## Pages Liées
+[[deepseek-r1]] [[deepseek-v4]] [[deepseek-v4-flash]] [[llama-4]] [[qwen-3-7]] [[function-calling]] [[transformer-architecture]]
@@ -0,0 +1,45 @@
+---
+title: DeepSeek V4 Flash
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source, chinese]
+sources: [web research]
+confidence: high
+contested: false
+---
+# ⚡ DeepSeek V4 Flash
+
+Version efficiency-optimized de DeepSeek V4, avec 284B paramètres totaux et 13B activés par token. Conçue pour l'inférence rapide et les workloads à haut débit tout en maintenant des performances solides en raisonnement et codage. Utilisée par défaut sur les routes `deepseek-chat` et `deepseek-reasoner` (API legacy, retrait au 24 juillet 2026).
+
+## Spécifications
+| Version | Paramètres totaux | Actifs | Contexte | Sortie max |
+|:---|:---:|:---:|:---:|:---:|
+| V4-Flash | 284B | 13B | 1M tokens | 384K tokens |
+| V4-Flash-Base | 284B | 13B | 1M tokens | — |
+
+## Architecture
+- **Même architecture que V4-Pro** : Attention hybride CSA/HCA, mHC, MoE avec Sqrt(Softplus), clamped SwiGLU, hash bootstrap
+- **Précision** : FP4 + FP8 mixte (FP4 pour experts MoE, FP8 pour le reste)
+- **Modes raisonnement** : `thinking` (high) et `xhigh` (max reasoning) supportés
+- **Support quantification** : [[gguf]] et [[exl2]]
+- **Compatibilité API** : OpenAI ChatCompletions & Anthropic API
+
+## Performances
+- **SWE-Bench Verified** : 79.0% (Pro : 80.6%)
+- **GPQA Diamond** : 88.1 (Max) | **MMLU-Pro** : 86.2 (Max)
+- **HLE** : 34.8 (Max) vs Pro 37.7
+- **SimpleQA-Verified** : 34.1 (Max)
+- **INFERENCE FLOPs** : 10% de V3.2 — extrêmement efficace pour 1M tokens
+
+## Licence & Disponibilité
+- **Licence** : MIT (poids ouverts) — [[mit]]
+- **Checkpoints** : `deepseek-ai/DeepSeek-V4-Flash` sur Hugging Face (~160 GB)
+- **API** : 
+  - DeepSeek Platform : $0.14/$0.28 par M tokens
+  - OpenRouter (meilleur prix) : $0.0983/$0.1966 par M tokens — `deepseek/deepseek-v4-flash`
+- **Fournisseurs** : DeepSeek, OpenRouter, Novita AI, Microsoft Foundry, Vercel AI Gateway
+- **Inférence locale** : vLLM, SGLang supportés
+
+## Pages Liées
+[[deepseek-v4]] [[llama-3-1]] [[mistral]] [[gguf]] [[exl2]] [[mit]] [[ollama]]
@@ -0,0 +1,44 @@
+---
+title: DeepSeek V4
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source, chinese]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🧊 DeepSeek V4
+
+Quatrième génération de modèles MoE par DeepSeek, publiée en preview le 24 avril 2026. Remplace l'architecture MLA par une attention hybride CSA/HCA, introduit les Manifold-Constrained Hyper-Connections (mHC) et un routage bootstrap par hash. Deux tailles : Pro (1.6T params, 49B actifs) et Flash (284B params, 13B actifs), toutes deux avec 1M tokens de contexte.
+
+## Spécifications
+| Version | Paramètres totaux | Actifs | Contexte | Sortie max |
+|:---|:---:|:---:|:---:|:---:|
+| V4-Pro | 1.6T | 49B | 1M tokens | 384K tokens |
+| V4-Flash | 284B | 13B | 1M tokens | 384K tokens |
+
+## Architecture
+- **Attention** : Hybride CSA (Compressed Sparse Attention) + HCA (Heavily Compressed Attention) — alterne par couche
+- **MoE** : Routage top-k standard avec Sqrt(Softplus(·)) au lieu de Sigmoid, expert partagé parallèle, clamped SwiGLU
+- **Hyper-Connections** : mHC remplace les résiduelles — `hc_mult` flux parallèles [B, S, hc_mult, D]
+- **Hash MoE** : Premières 3 couches utilisent un lookup statique token-id → expert-id (bootstrap)
+- **Précision** : FP4 pour poids experts MoE, FP8 pour le reste ; indexeur CSA en FP4
+- **Support quantification** : [[gguf]] et [[exl2]]
+
+## Performances (V4-Pro Max)
+- **SWE-Bench Verified** : 80.6% (à 0.2 pt de Claude Opus 4.6)
+- **Terminal-Bench 2.0** : 67.9% | **LiveCodeBench** : 93.5% | **Codeforces** : 3206 (~23e humain)
+- **MCP-Atlas Public** : 73.6 (2e derrière Opus 4.6)
+- **GPQA Diamond** : 90.1 | **HLE** : 37.7% | **SimpleQA-Verified** : 57.9%
+- **MRCR (1M ctx)** : 66% retrieval accuracy à 1M tokens ; 94% à 128K
+- **Consommation KV cache** : 10% de V3.2 pour Pro, 7% pour Flash
+
+## Licence & Disponibilité
+- **Licence** : MIT (poids ouverts)
+- **Checkpoints** : deepseek-ai/DeepSeek-V4-Pro / Flash (+ variantes Base) sur Hugging Face
+- **API** : api-docs.deepseek.com — $0.14/$0.28 par M tokens (cache hit : $0.0028)
+- **Périphérie** : OpenRouter, DeepSeek Platform, Novita AI, Microsoft Foundry
+
+## Pages Liées
+[[deepseek-v4-flash]] [[llama-3-1]] [[mistral]] [[qwen-3-7]] [[gguf]] [[exl2]] [[mit]]
@@ -0,0 +1,55 @@
+---
+title: Gemini 2.5 Flash
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, agent, multimodal]
+sources:
+  - https://ai.google.dev/gemini-api/docs/models/gemini-2.5-flash
+  - https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/2-5-flash
+  - https://cloud.google.com/gemini-enterprise-agent-platform/generative-ai/pricing
+  - https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/
+  - https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-updates-io-2025/
+confidence: medium
+contested: false
+---
+# ⚡ Gemini 2.5 Flash
+
+Modèle propriétaire de Google DeepMind orienté **prix / performances**, officialisé en preview au printemps 2025 puis rendu stable en juin 2025. **Gemini 2.5 Flash** sert de modèle de travail rapide pour les tâches à gros volume, faible latence et usage agentique avec raisonnement activable.
+
+## Spécifications
+| Champ | Valeur |
+|:---|:---|
+| Éditeur | Google DeepMind / Google AI |
+| Identifiant API | `gemini-2.5-flash` |
+| Statut | Stable / GA depuis le 17 juin 2025 |
+| Fenêtre de contexte | 1 048 576 tokens en entrée |
+| Sortie max | 65 536 tokens |
+| Modalités | Texte, image, audio, vidéo → texte |
+| Cutoff de connaissance | Janvier 2025 |
+| Outils | [[function-calling]], structured outputs, code execution, file search, search grounding, URL context, Google Maps grounding |
+| Tarification standard | entrée texte/image/vidéo $0.30/M tokens; entrée audio $1/M; sortie texte $2.50/M |
+
+## Architecture
+- **Type** : modèle propriétaire de type [[transformer-architecture]] au sein de la famille Gemini 2.5.
+- **Raisonnement hybride** : Google le décrit comme le premier Flash doté de capacités de *thinking*, avec possibilité d'ajuster le budget de réflexion.
+- **Orientation produit** : compromis explicite entre vitesse, coût et qualité, pour servir d'outil de production généraliste à grande échelle.
+- **Outillage** : supporte [[function-calling]], code execution, sorties structurées et intégrations agentiques compatibles avec des workflows [[mcp-protocol]].
+- **Multimodalité** : même socle d'entrée multimodale que Pro, mais positionné pour l'inférence haut débit, la synthèse, la classification et le traitement applicatif.
+
+## Performances
+- Google présente 2.5 Flash comme son meilleur modèle **price-performance** pour les tâches à faible latence nécessitant quand même du raisonnement.
+- Lors de l'update I/O 2025, Google indiquait des gains sur le **raisonnement**, la **multimodalité**, le **code** et le **long context**.
+- La même communication précise que la version mise à jour utilise **20 à 30% de tokens en moins** dans les évaluations internes de Google.
+- La release stable de juin 2025 a supprimé la distinction tarifaire *thinking vs non-thinking*, rendant le modèle plus simple à opérer en production.
+- Flash vise les assistants applicatifs, orchestrateurs d'outils, pipelines de recherche, extraction d'information et usages massifs en concurrence plus économique avec [[claude-4]], [[gpt-5]] et [[qwen-3-7]].
+
+## Licence & Disponibilité
+- **Licence** : propriétaire, pas de poids ouverts.
+- **Disponibilité** : Gemini API, Google AI Studio, Vertex AI / Agent Platform, Gemini app.
+- **Versions** : alias stable `gemini-2.5-flash`; disponibilité GA annoncée le **17 juin 2025**.
+- **Fonctions supportées** : Batch API, context caching, priority inference, file search, grounding web/cartes; **Live API non supportée** pour cette variante standard.
+- **Cycle de vie** : la documentation Google Cloud annonce une fin de support **pas avant le 16 octobre 2026**.
+
+## Pages Liées
+[[claude-4]] [[gpt-5]] [[qwen-3-7]] [[mcp-protocol]] [[function-calling]] [[transformer-architecture]] [[embeddings]]
@@ -0,0 +1,55 @@
+---
+title: Gemini 2.5 Pro
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, agent, multimodal]
+sources:
+  - https://ai.google.dev/gemini-api/docs/models/gemini-2.5-pro
+  - https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/2-5-pro
+  - https://cloud.google.com/gemini-enterprise-agent-platform/generative-ai/pricing
+  - https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-model-thinking-updates-march-2025/
+  - https://blog.google/innovation-and-ai/models-and-research/google-deepmind/google-gemini-updates-io-2025/
+confidence: medium
+contested: false
+---
+# ✨ Gemini 2.5 Pro
+
+Modèle propriétaire de Google DeepMind, lancé d'abord en preview en mars 2025 puis stabilisé en juin 2025. **Gemini 2.5 Pro** est positionné comme le modèle Gemini le plus avancé pour le raisonnement, le codage, l'analyse multimodale et les workflows agentiques à long contexte.
+
+## Spécifications
+| Champ | Valeur |
+|:---|:---|
+| Éditeur | Google DeepMind / Google AI |
+| Identifiant API | `gemini-2.5-pro` |
+| Statut | Stable / GA depuis le 17 juin 2025 |
+| Fenêtre de contexte | 1 048 576 tokens en entrée |
+| Sortie max | 65 536 tokens |
+| Modalités | Texte, image, audio, vidéo, PDF → texte |
+| Cutoff de connaissance | Janvier 2025 |
+| Outils | [[function-calling]], structured outputs, code execution, file search, search grounding, URL context, Google Maps grounding |
+| Tarification standard | $1.25/M tokens en entrée jusqu'à 200k, puis $2.50; sortie $10/M puis $15 au-delà de 200k |
+
+## Architecture
+- **Type** : modèle propriétaire de type [[transformer-architecture]] avec raisonnement explicite de la famille Gemini 2.5.
+- **Contexte long** : conçu pour ingérer de grands corpus, dépôts de code, documents PDF et séquences multimodales longues.
+- **Raisonnement** : Google le présente comme un *thinking model* avec contrôle de budget de réflexion côté API.
+- **Agentique** : support natif de [[function-calling]], des sorties structurées, de l'usage d'outils et des intégrations proches de [[mcp-protocol]].
+- **Multimodalité** : accepte nativement texte, image, audio et vidéo, tout en restant centré sur une sortie textuelle exploitable dans des pipelines, RAG et [[embeddings]].
+
+## Performances
+- Au lancement de Gemini 2.5, Google a communiqué **63.8% sur SWE-Bench Verified** avec un setup agentique personnalisé.
+- Lors des mises à jour de mai 2025, Google a aussi mis en avant une progression forte sur **WebDev Arena**, avec un gain de **+147 Elo** sur la version antérieure.
+- À I/O 2025, Google indiquait que 2.5 Pro menait **WebDev Arena** avec **1415 Elo** et restait en tête sur **LMArena**.
+- Google met également en avant des performances de pointe sur le **long context** et la **compréhension vidéo**, notamment **84.8% sur VideoMME** pour la version I/O.
+- Le modèle est surtout visé pour le codage complexe, les agents outillés, l'analyse documentaire longue et les cas d'usage concurrençant [[claude-4]], [[gpt-5]] et [[qwen-3-7]].
+
+## Licence & Disponibilité
+- **Licence** : propriétaire, poids non ouverts.
+- **Disponibilité** : Gemini API, Google AI Studio, Vertex AI / Agent Platform, Gemini app.
+- **Versions** : alias stable `gemini-2.5-pro`; release GA annoncée le **17 juin 2025**.
+- **Fonctions supportées** : Batch API, context caching, priority inference, file search, grounding web/cartes; **Live API non supportée** sur cette variante texte.
+- **Cycle de vie** : documentation Google Cloud indiquant une disponibilité "**not before October 16, 2026**" pour l'arrêt minimalement envisagé.
+
+## Pages Liées
+[[claude-4]] [[gpt-5]] [[qwen-3-7]] [[mcp-protocol]] [[function-calling]] [[transformer-architecture]] [[embeddings]]
@@ -0,0 +1,63 @@
+---
+title: Gemma 3
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, multimodal]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🟢 Gemma 3
+
+Famille de modèles open-weights de **Google DeepMind**, sortie avant [[gemma-4]], conçue pour apporter de la multimodalité légère (texte + image), du long contexte et de bonnes performances sur matériel grand public. Gemma 3 couvre les tailles **1B, 4B, 12B et 27B** et reste une référence importante pour l’écosystème local et quantifié.
+
+## Spécifications
+
+| Version | Paramètres | Contexte | Modalités | Particularités |
+| :--- | :---: | :---: | :--- | :--- |
+| **1B** | ~1B | 32K | Texte | plus compact, sans encodeur vision |
+| **4B** | ~4,3B avec vision | 128K | Texte, image | bon compromis local |
+| **12B** | ~11,8B avec vision | 128K | Texte, image | usage workstation |
+| **27B** | ~27B avec vision | 128K | Texte, image | variante la plus performante |
+
+- **Vocabulaire** : 262K tokens
+- **Langues** : 140+ langues
+- **Entrées image** : images normalisées en **896×896**, encodées en **256 tokens**
+- **Sortie** : texte uniquement
+- **Date de sortie initiale** : 10 mars 2025
+- **Knowledge cutoff** : août 2024
+
+## Architecture
+
+- **Type** : Transformer décodeur-only avec **GQA**, **RMSNorm** et **QK-norm**.
+- **Attention hybride** : alternance de **5 couches locales** pour **1 couche globale** afin de réduire l’explosion du **KV cache** en long contexte.
+- **Fenêtre locale** : **1024 tokens** sur les couches locales ; seules les couches globales voient tout le contexte.
+- **RoPE** : base portée à **1M** sur l’attention globale pour supporter 128K tokens.
+- **Vision** : encodeur **SigLIP ~417M** partagé sur 4B/12B/27B, gelé pendant l’entraînement.
+- **Pan & Scan** : stratégie d’inférence pour mieux gérer les documents, images non carrées et petits détails.
+- **Quantification / déploiement** : très présent dans l’écosystème [[gguf]], [[exl2]], [[llama-cpp]], [[ollama]] et [[quantification-llm]].
+
+## Performances
+
+- **27B IT** atteint notamment **42,4** sur **GPQA Diamond**, **87,6** sur **BIG-Bench Hard**, **90,4** sur **IFEval** et **29,7** sur **LiveCodeBench**.
+- **27B IT** obtient **87,8** sur **HumanEval**, **95,9** sur **GSM8K** et **89,0** sur **MATH**.
+- **4B IT** est souvent présenté par Google comme compétitif face à **Gemma 2 27B IT** sur plusieurs usages instruction-tunés.
+- **27B IT** est positionné par Google comme comparable à **Gemini 1.5 Pro** sur plusieurs benchmarks internes/rapportés au moment de la sortie.
+- Par rapport à [[gemma-4]], Gemma 3 reste moins agentique et moins performante, mais demeure plus simple à comprendre, à fine-tuner et à diffuser dans l’écosystème open-weight.
+
+## Licence & Disponibilité
+
+- **Licence** : licence **Gemma** (poids ouverts, usage soumis aux *Gemma Terms of Use* ; ce n’est pas une licence Apache 2.0 pour Gemma 3).
+- **Distribution** : Google AI for Developers, Kaggle, Hugging Face.
+- **Formats dérivés** : nombreuses conversions communautaires en [[gguf]] et autres formats de quantification ; exécution fréquente via [[llama-cpp]] et [[ollama]].
+- **Accès** : certains dépôts Hugging Face sont *gated* et demandent l’acceptation préalable des conditions d’usage Google.
+
+## Pages Liées
+
+- [[gemma-4]]
+- [[ollama]]
+- [[gguf]]
+- [[exl2]]
+- [[llama-cpp]]
+- [[quantification-llm]]
@@ -0,0 +1,58 @@
+---
+title: Gemma 4
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🟢 Gemma 4
+
+Famille de modèles open-weights développée par Google DeepMind, offrant le meilleur rapport intelligence/paramètre avec des architectures denses et MoE, pensée pour le fine-tuning et le déploiement local.
+
+## Spécifications
+
+| Version | Paramètres (Total) | Actifs | Contexte | Usage |
+| :--- | :---: | :---: | :---: | :--- |
+| **E2B** | 5,1B | 2,3B | 128K | Mobile, IoT, Edge |
+| **E4B** | 8B | 4,5B | 128K | Mobile, Chrome, Edge |
+| **12B** (Unified) | 11,95B | 11,95B | 256K | Workstation, IDEs |
+| **26B A4B** (MoE) | 25,2B | 3,8B | 256K | Haute performance, Raisonnement |
+| **31B** (Dense) | 30,7B | 30,7B | 256K | Local-first serveur, Agents |
+
+## Architecture
+
+- **E2B/E4B** : Modèles compacts pour appareils mobiles, avec encodeurs vision (~150M) et audio (~300M). Jusqu'à 2,9 Go en Q4.
+- **12B Unified** : Encodeur-free — projections linéaires directes des entrées multimodales. Idéal fine-tuning.
+- **26B A4B** : MoE avec 8 experts actifs sur 128 + 1 expert partagé. Slot window 1024 tokens.
+- **31B Dense** : Modèle dense puissant, encodeur vision ~550M. Performances de pointe.
+- **Thinking intégré** : Mode raisonnement pas-à-pas natif.
+- **Quantification** : Support natif [[gguf]], QAT Q4_0, SFP8, compressed-tensors, mobile-optimisé.
+- **140+ langues**, cutoff Janvier 2025.
+
+## Performances
+
+| Benchmark | 31B IT | 26B A4B IT | E4B IT | E2B IT |
+| :--- | :---: | :---: | :---: | :---: |
+| MMMLU (multilingue) | 85,2 % | 82,6 % | 69,4 % | 60,0 % |
+| MMMU Pro (vision) | 76,9 % | 73,8 % | 52,6 % | 44,2 % |
+| AIME 2026 (maths) | 89,2 % | 88,3 % | 42,5 % | 37,5 % |
+| LiveCodeBench v6 | 80,0 % | 77,1 % | 52,0 % | 44,0 % |
+| GPQA Diamond | 84,3 % | 82,3 % | 58,6 % | 43,4 % |
+| T2-bench (agents) | 86,4 % | 85,5 % | 57,5 % | 29,4 % |
+
+## Licence & Disponibilité
+
+- Licence **Gemma** ouverte, libre pour usage commercial et fine-tuning.
+- Formats : BF16, GGUF, QAT, compressed-tensors, mobile-transformers.
+- Disponible sur Hugging Face, ai.google.dev.
+
+## Pages Liées
+
+- [[gguf]] — quantification native
+- [[exl2]] — quantification alternative
+- [[phi-3-5]] — concurrent SLM Microsoft
+- [[mistral]] — concurrent Mistral AI
+- [[llama-3-1]] — concurrent Meta
@@ -0,0 +1,46 @@
+---
+title: GLM-5
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source, chinese]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🧬 GLM-5
+
+Modèle de fondation de Zhipu AI (Beijing), ciblant l'ingénierie de systèmes complexes et les tâches agentiques longue durée. Succède à GLM-4.5/4.7 avec une architecture MoE de 744B paramètres (40B actifs), entraîné sur 28.5T tokens et publié sous licence MIT. Meilleur open-source mondial sur raisonnement, codage et agentic au moment de sa sortie (février 2026).
+
+## Spécifications
+| Version | Paramètres totaux | Actifs | Contexte | Précision |
+|:---|:---:|:---:|:---:|:---:|
+| GLM-5 | 744B | 40B | 205K tokens | BF16 |
+| GLM-5-FP8 | 744B | 40B | 205K tokens | FP8 |
+| GLM-5.1 | 744B | 40B | 205K tokens | BF16 (amélioré) |
+
+## Architecture
+- **Type** : Mixture of Experts (MoE) — 256 experts, 80 couches
+- **Attention** : DeepSeek Sparse Attention (DSA) — intègre l'innovation d'attention sparse de DeepSeek pour réduire coûts
+- **Post-training** : Infrastructure RL asynchrone `slime` — SFT + RL (GRPO) + distillation on-policy
+- **Entraînement** : 28.5T tokens de pré-entraînement
+- **Support quantification** : [[gguf]] et [[exl2]]
+
+## Performances
+- **HLE** : 30.5 | **HLE (w/ Tools)** : 50.4 | **GPQA Diamond** : 86.0
+- **AIME 2026 I** : 92.7 | **HMMT Nov 2025** : 96.9
+- **SWE-bench Verified** : 77.8 | **SWE-bench Multilingual** : 73.3
+- **Terminal-Bench 2.0** : 56.2 / 60.7 | **CyberGym** : 43.2
+- **BrowseComp** : 62.0 | **τ²-Bench** : 89.7 | **MCP-Atlas** : 67.8
+- **Vending Bench 2** : $4,432 (n°1 open-source, ~95% de Claude Opus 4.5)
+- Meilleur open-source mondial à sa sortie, devant DeepSeek-V3.2 et Kimi K2.5
+
+## Licence & Disponibilité
+- **Licence** : MIT (poids ouverts) — [[mit]]
+- **Checkpoints** : `zai-org/GLM-5` sur Hugging Face et ModelScope
+- **API** : api.z.ai, BigModel.cn, NVIDIA NIM
+- **Inférence locale** : vLLM, SGLang supportés
+- **Intégration** : Compatible Claude Code et OpenClaw
+
+## Pages Liées
+[[deepseek-v4]] [[llama-3-1]] [[mistral]] [[phi-3-5]] [[gguf]] [[exl2]] [[mit]]
@@ -0,0 +1,47 @@
+---
+title: GPT-5
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, agent]
+sources:
+  - https://developers.openai.com/api/docs/models/gpt-5
+  - https://openai.com/index/introducing-gpt-5-for-developers/
+  - https://openai.com/index/introducing-gpt-5/
+confidence: medium
+contested: false
+---
+# 🤖 GPT-5
+
+Modèle phare d'OpenAI lancé en août 2025 pour le codage, le raisonnement et les tâches agentiques. Dans l'API, **GPT-5** désigne surtout le modèle raisonneur principal, distinct du routage interne utilisé dans ChatGPT; la famille comprend aussi **GPT-5 mini** et **GPT-5 nano** pour réduire coût et latence.
+
+## Spécifications
+| Variante | Contexte total | Sortie max | Modalités | Prix API |
+|:---|:---:|:---:|:---|:---|
+| GPT-5 | 400k tokens | 128k | Texte, image → texte | $1.25 / $10 par MTok |
+| GPT-5 mini | 400k tokens | 128k | Texte, image → texte | $0.25 / $2 par MTok |
+| GPT-5 nano | 400k tokens | 128k | Texte, image → texte | $0.05 / $0.40 par MTok |
+| gpt-5-chat-latest | non figé | variable | version ChatGPT non-raisonnante | même ordre de prix API |
+
+## Architecture
+- **Type** : modèle propriétaire de type [[transformer-architecture]], optimisé pour codage et orchestration d'outils.
+- **Raisonnement** : paramètre `reasoning_effort` (`minimal`, `low`, `medium`, `high`) pour contrôler la profondeur de calcul inférentiel.
+- **Contrôle de sortie** : paramètre `verbosity` pour contraindre la densité verbale sans changer fondamentalement le raisonnement.
+- **Outillage** : supporte [[function-calling]], sorties structurées, outils personnalisés, appels d'outils parallèles et intégrations agentiques.
+- **Contexte** : 272k tokens d'entrée + jusqu'à 128k tokens de raisonnement/sortie, soit **400k** de contexte total annoncé.
+
+## Performances
+- OpenAI présente GPT-5 comme son meilleur modèle API pour **codage** et **agents** à sa sortie.
+- Benchmarks communiqués : **74.9% sur SWE-bench Verified**, **88.0% sur Aider polyglot**, **96.7% sur τ²-bench telecom**, **69.6% sur Scale MultiChallenge**.
+- OpenAI indique aussi une forte baisse des erreurs factuelles par rapport à `o3` sur des tests de factualité longue portée.
+- GPT-5 vise les assistants développeur, agents multi-outils, navigation documentaire longue et produits orientés [[embeddings]], recherche et automatisation.
+
+## Licence & Disponibilité
+- **Licence** : propriétaire, pas de poids ouverts.
+- **Disponibilité** : OpenAI API via `v1/responses`, `v1/chat/completions`, Batch, Realtime et autres endpoints compatibles.
+- **Snapshot principal** : `gpt-5-2025-08-07`; alias stable `gpt-5`.
+- **Fine-tuning** : indiqué comme **non supporté** pour GPT-5 dans la fiche modèle API au moment de la recherche, malgré la présence générale d'un endpoint [[fine-tuning]].
+- **Connaissance déclarée** : cutoff de connaissance **30 septembre 2024** sur la page modèle.
+
+## Pages Liées
+[[llama-4]] [[qwen-3-7]] [[claude-4]] [[mcp-protocol]] [[function-calling]] [[fine-tuning]] [[transformer-architecture]] [[embeddings]]
@@ -0,0 +1,49 @@
+---
+title: Grok 4
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, agent]
+sources:
+  - https://x.ai/news/grok-4
+  - https://docs.x.ai/developers/models/grok-4
+confidence: medium
+contested: false
+---
+# 🚀 Grok 4
+
+Modèle propriétaire de xAI annoncé en juillet 2025, positionné comme son modèle phare pour le raisonnement, l’usage natif d’outils et la recherche temps réel. La communication de lancement présente **Grok 4** comme une famille de capacités orientées agent, avec une variante **Grok 4 Heavy** pour davantage de calcul inférentiel; dans la documentation développeur actuelle, l’alias `grok-4` pointe vers un snapshot plus récent de la lignée (`grok-4.3`).
+
+## Spécifications
+| Élément | Détail |
+|:---|:---|
+| Nom API principal observé | `grok-4` (alias), snapshot documenté `grok-4.3` |
+| Modalités | Texte, image → texte |
+| Fenêtre de contexte | **1 000 000 tokens** dans la doc développeur actuelle |
+| Contexte API au lancement | **256 000 tokens** annoncés sur la page de lancement |
+| Capacités | Raisonnement, function calling, sorties structurées, recherche web/X en temps réel |
+| Tarification API | **$1.25 / 1M tokens en entrée**, **$0.20 / 1M en cache**, **$2.50 / 1M en sortie** |
+| Limites documentées | 1 800 requêtes/min, 10 000 000 tokens/min |
+| Régions | `us-east-1`, `eu-west-1`, `us-west-2` |
+
+## Architecture
+- **Type** : modèle propriétaire de type transformeur, optimisé pour le raisonnement et l’orchestration d’outils.
+- **Outillage natif** : xAI met en avant l’usage direct du navigateur, de la recherche web, de la recherche dans X, de l’interpréteur de code et d’outils de recherche sémantique.
+- **Agentique** : le modèle est explicitement entraîné à **choisir ses propres requêtes** et à enchaîner des appels d’outils pendant la résolution.
+- **Entraînement** : xAI indique avoir entraîné Grok 4 via RL à grande échelle sur **Colossus**, son cluster de **200 000 GPU**, avec une amélioration déclarée de **6× en efficacité de calcul** sur cette phase.
+- **Variante Heavy** : **Grok 4 Heavy** est présenté comme une version plus puissante fondée sur davantage de calcul de test-time et le parallélisme d’hypothèses.
+
+## Performances
+- xAI présente Grok 4 comme un saut de performance majeur par rapport à la génération précédente sur les tâches de raisonnement vérifiables et l’usage d’outils.
+- Chiffres mis en avant au lancement : **15.9% sur ARC-AGI V2**, **61.9% sur USAMO 2025** et **50.7% sur Humanity’s Last Exam (subset texte)** pour la variante Heavy.
+- Sur **Vending-Bench**, xAI revendique **$4694.15** de valeur nette moyenne et **4569** unités vendues, devant les chiffres comparatifs cités pour Claude Opus 4 et des humains.
+- La documentation produit insiste aussi sur un faible taux d’hallucination, un bon suivi d’instructions et de fortes capacités de recherche en environnement réel, mais ces affirmations restent surtout issues de la communication éditeur.
+
+## Licence & Disponibilité
+- **Licence** : propriétaire; pas de poids ouverts publiés.
+- **Disponibilité** : accès via **xAI API**, ainsi que via certaines offres **SuperGrok** et **Premium+** selon la page de lancement.
+- **Conformité entreprise** : la page produit mentionne **SOC 2 Type 2**, **GDPR** et **CCPA**.
+- **Remarque de versioning** : la marque "Grok 4" désigne un produit/famille; l’implémentation API documentée peut évoluer via snapshots et alias sans changer le slug de cette page.
+
+## Pages Liées
+[[gpt-5]] [[claude-4]] [[llama-4]] [[qwen-3-7]] [[mistral-large-3]]
@@ -0,0 +1,47 @@
+---
+title: Kimi K2.5
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, multimodal, agent, open-source]
+sources: [web research]
+confidence: medium
+contested: false
+---
+# 🎯 Kimi K2.5
+
+Modèle multimodal et agentique open-source de **Moonshot AI**, officiellement publié fin janvier 2026. Il combine compréhension texte/image/vidéo, génération de code à partir d'inputs visuels, et orchestration parallèle d'agents via **Agent Swarm**. K2.5 sert de prédécesseur direct à [[kimi-k2-6]].
+
+## Spécifications
+| Élément | Valeur |
+|:---|:---|
+| Paramètres totaux | 1T (≈1.04T dans le papier) |
+| Paramètres actifs | 32B |
+| Contexte | 256K tokens |
+| Vision encoder | MoonViT / MoonViT-3D (~400M) |
+| Date de sortie | 2026-01-27 |
+
+## Architecture
+- **Type** : [[transformer-architecture]] MoE avec **384 experts**, **8 experts activés par token** et **1 expert partagé**
+- **Structure** : **61 couches**, **64 têtes d'attention**, vocabulaire **160K**, activation **SwiGLU**
+- **Attention** : **MLA** (Multi-head Latent Attention)
+- **Multimodal natif** : pré-entraînement conjoint texte + vision sur environ **15T tokens mixtes**
+- **Agentique** : introduit **Agent Swarm**, un orchestrateur qui décompose les tâches en sous-agents parallèles
+- **Produit** : modes Instant, Thinking, Agent et Agent Swarm ; API compatible OpenAI/Anthropic selon Moonshot
+
+## Performances
+- **HLE-Full** : 30.1 ; **HLE avec outils** : 50.2
+- **AIME 2025** : 96.1 ; **HMMT 2025** : 95.4 ; **GPQA-Diamond** : 87.6 ; **MMLU-Pro** : 87.1
+- **MMMU-Pro** : 78.5 ; **MathVista mini** : 90.1 ; **OCRBench** : 92.3 ; **InfoVQA** : 92.6
+- **SWE-Bench Verified** : 76.8 ; **SWE-Bench Multilingual** : 73.0 ; **Terminal Bench 2.0** : 50.8 ; **LiveCodeBench v6** : 85.0
+- **BrowseComp** : 60.6, puis **78.4** avec Agent Swarm ; **WideSearch** : 72.7, puis **79.0** avec Agent Swarm
+- Moonshot met aussi en avant une réduction de latence pouvant atteindre **4.5×** sur des scénarios parallélisables
+
+## Licence & Disponibilité
+- **Licence** : **Modified MIT License** pour les poids et le code ; la métadonnée GitHub reste moins explicite que le README
+- **Poids** : publiés sur Hugging Face et GitHub (`moonshotai/Kimi-K2.5` / `MoonshotAI/Kimi-K2.5`)
+- **Accès** : disponible via Kimi Web, app mobile, API Moonshot et Kimi Code ; accès gratuit limité mentionné sur le site officiel
+- **Déploiement** : support communautaire et fournisseurs tiers, avec recommandation d'utiliser l'API officielle pour reproduire les benchmarks
+
+## Pages Liées
+[[kimi-k2-6]] [[deepseek-v4]] [[llama-4]] [[qwen-3-7]] [[function-calling]] [[transformer-architecture]]
@@ -0,0 +1,69 @@
+---
+title: Kimi K2.6
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, coding, agent]
+sources: [web research]
+confidence: medium
+contested: false
+---
+# 🎯 Kimi K2.6
+
+Modèle open-weights natif multimodal et agentique développé par **Moonshot AI**. Spécialisé dans le **codage longue durée** (long-horizon coding), l'exécution autonome prolongée, le design piloté par code, et l'orchestration par essaims d'agents. Se positionne comme modèle de codage SOTA open-source, avec des scores de premier plan sur SWE-Bench.
+
+## Spécifications
+
+| Version | Paramètres | Contexte | Usage |
+|:---|:---:|:---:|:---|
+| Kimi K2.6 | 1T total / 32B actifs (MoE) | 256K tokens | Codage, Agents, Multimodal |
+
+## Architecture
+
+- **Type** : Mixture-of-Experts (MoE) — 384 experts, 8 sélectionnés par token, 1 expert partagé
+- **Couches** : 61 (dont 1 dense)
+- **Dimension cachée** : Attention 7168, MoE 2048 par expert
+- **Têtes d'attention** : 64
+- **Mécanisme d'attention** : MLA (Multi-head Latent Attention)
+- **Activation** : SwiGLU
+- **Vocabulaire** : 160K tokens
+- **Encodeur vision** : MoonViT (400M paramètres)
+- **Quantification** : Supporté en [[gguf]] et [[exl2]]
+- **Inférence locale** : Via [[ollama]], [[llama-cpp]], vLLM, SGLang
+
+## Performances
+
+| Benchmark | Score | Position |
+|:---|:---:|:---|
+| **SWE-Bench Verified** | 80.2% | État de l'art open-source |
+| **SWE-Bench Pro** | 58.6% | Meilleur que GPT-5.4, Claude Opus 4.6 |
+| **SWE-Bench Multilingual** | 76.7% | — |
+| **Terminal-Bench 2.0** | 66.7% | Compétitif avec les modèles fermés |
+| **LiveCodeBench v6** | 89.6% | Excellent |
+| **AIME 2026** | 96.4% | Raisonnement mathématique de haut niveau |
+| **GPQA-Diamond** | 90.5% | — |
+| **BrowseComp** | 83.2% (86.3% en essaim) | Navigation web agentique |
+| **OSWorld-Verified** | 73.1% | Usage ordinateur |
+
+### Points forts
+- **Essaims d'agents** : Jusqu'à 300 sous-agents, 4 000 étapes coordonnées
+- **Codage longue durée** : >12h de travail autonome, >4 000 appels d'outils
+- **Support multi-langage** : Rust, Go, Python, front-end, DevOps
+
+## Licence & Disponibilité
+
+- **Licence** : MIT modifiée — utilisation libre ; attribution obligatoire si >100M MAU ou >20M$/mois de revenu
+- **Poids** : Ouverts sur Hugging Face ([moonshotai/Kimi-K2.6](https://huggingface.co/moonshotai/Kimi-K2.6))
+- **API** : Disponible via Kimi.com, Kimi Code, API Moonshot, NVIDIA NIM
+- **Date de sortie** : Mai 2026
+
+## Pages Liées
+
+- [[moonshot-ai]]
+- [[quantification-llm]]
+- [[gguf]]
+- [[exl2]]
+- [[transformer-architecture]]
+- [[changements-modeles-open-weights]]
+- [[fiches-modeles-llm]]
+- [[kimi-k2-5]]
@@ -0,0 +1,50 @@
+---
+title: Llama 4
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🦙 Llama 4
+
+Première génération de modèles nativement multimodaux de Meta utilisant l'architecture Mixture-of-Experts (MoE). Successeur de [[llama-3-1]] avec des capacités de contexte record.
+
+## Spécifications
+
+| Version | Paramètres Actifs | Paramètres Totaux | Experts | Contexte | Usage |
+| :--- | :---: | :---: | :---: | :---: | :--- |
+| **Scout** (17Bx16E) | 17B | 109B | 16 | **10M tokens** | Single GPU (Int4), Long contexte |
+| **Maverick** (17Bx128E) | 17B | 400B | 128 | 1M tokens | Serveur, généraliste haut de gamme |
+| **Behemoth** (non publié) | — | ~2T | — | — | Teacher model, top STEM |
+
+## Architecture
+
+- **Early Fusion** : Fusion précoce des modalités texte et image pour un apprentissage multimodal natif.
+- **MoE** : Couches denses alternées avec couches MoE. Chaque token active 1 expert routé sur 16 ou 128 + 1 expert partagé.
+- **Scout** : 48 couches, 40 têtes d'attention, 8 KV heads. Tient sur **1 H100** avec Int4 on-the-fly.
+- **Maverick** : Plus grand, tient sur 1 hôte H100 DGX en FP8.
+- **Contexte record** : Scout supporte jusqu'à **10M tokens** — idéal pour analyse de documents massifs.
+- **Langues** : 12 langues supportées (arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï, vietnamien).
+- **Entraînement** : Scout ~40T tokens, Maverick ~22T tokens. Cutoff août 2024.
+
+## Performances
+
+- Maverick surpasse GPT-4o et Gemini 2.0 Pro en codage, raisonnement, multilingue et benchmarks image.
+- Behemoth (teacher) dépasse GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro sur MATH-500 et GPQA Diamond.
+
+## Licence & Disponibilité
+
+- Licence **Llama 4 Community License** (licence commerciale personnalisée).
+- Formats : BF16 (Scout), BF16 + FP8 (Maverick).
+- Sortie : 5 avril 2025.
+- Code Int4 on-the-fly fourni pour minimiser la dégradation.
+
+## Pages Liées
+
+- [[llama-3-1]] — prédécesseur dense
+- [[gguf]] — quantification
+- [[exl2]] — quantification alternative
+- [[mistral]] — concurrent MoE Mistral AI
@@ -0,0 +1,60 @@
+---
+title: MiMo V2.5
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, multimodal, agent]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🌌 MiMo V2.5
+
+Modèle **omnimodal open-source** développé par **Xiaomi MiMo** — et non par MiniMax ni Moonshot. MiMo V2.5 vise les usages agentiques multimodaux avec un très long contexte, en combinant compréhension du texte, de l’image, de la vidéo et de l’audio dans une seule architecture MoE ouverte.
+
+## Spécifications
+
+| Version | Paramètres totaux | Paramètres actifs | Contexte | Précision | Modalités |
+| :--- | :---: | :---: | :---: | :--- | :--- |
+| **MiMo-V2.5-Base** | 310B | 15B | 256K | FP8 (E4M3) mixed | texte, image, vidéo, audio |
+| **MiMo-V2.5** | 310B | 15B | **1M** | FP8 (E4M3) mixed | texte, image, vidéo, audio |
+
+- **Date de sortie** : 22 avril 2026
+- **Entraînement** : **48T** tokens
+- **Positionnement** : version généraliste/efficiente de la série V2.5, en dessous de MiMo-V2.5-Pro mais à coût inférieur
+- **Open source** : poids, tokenizer et model card publiés publiquement
+
+## Architecture
+
+- **Éditeur** : **Xiaomi MiMo**.
+- **Type** : **Sparse MoE** omnimodal.
+- **Backbone** : hérite de **MiMo-V2-Flash**.
+- **Experts** : **256 experts routés**, **top-8** actifs par token, pour **15B paramètres actifs**.
+- **Couches** : **48 couches** au total, dont **1 dense + 47 MoE**.
+- **Attention** : hybride **sliding-window + full attention** avec ratio **5:1**, optimisée pour le contexte long.
+- **Encodeurs dédiés** : vision **~729M** et audio **~261M**, reliés au backbone par des projecteurs légers.
+- **MTP** : tête **Multi-Token Prediction** à 3 couches pour accélérer l’inférence spéculative.
+- **Déploiement** : support documenté côté **vLLM** ; l’écosystème local autour de [[gguf]], [[exl2]], [[llama-cpp]] et [[ollama]] reste plus limité vu l’échelle du modèle.
+
+## Performances
+
+- Xiaomi décrit MiMo V2.5 comme une **forte progression agentique** par rapport à **MiMo-V2-Pro**.
+- Sur **Claw-Eval (general subset)**, Xiaomi rapporte **62,3**.
+- Le modèle est présenté comme **au niveau de modèles fermés de pointe** sur plusieurs tâches image, vidéo et agentiques multimodales.
+- Xiaomi indique qu’il **égale Gemini 3 Pro sur la vidéo** et **Claude Sonnet 4.6** sur certains usages agentiques multimodaux, tout en restant plus efficace en coût que la version Pro.
+- MiMo V2.5 se distingue surtout par la combinaison **1M de contexte + multimodalité native + poids ouverts**, davantage que par un positionnement purement local-first.
+
+## Licence & Disponibilité
+
+- **Licence** : **MIT** sur Hugging Face pour le dépôt MiMo-V2.5.
+- **Disponibilité** : Hugging Face, ModelScope, plateforme API/MiMo Studio de Xiaomi.
+- **Poids ouverts** : oui, contrairement à de nombreux modèles agentiques concurrents hébergés uniquement par API.
+- **Inférence** : Xiaomi et vLLM documentent un déploiement serveur ; le besoin matériel reste élevé (par ex. configuration vLLM documentée autour de **4× H200**).
+
+## Pages Liées
+
+- [[ollama]]
+- [[gguf]]
+- [[exl2]]
+- [[llama-cpp]]
+- [[quantification-llm]]
@@ -0,0 +1,66 @@
+---
+title: MiniMax M3
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, coding, agent, multimodal]
+sources: [web research]
+confidence: medium
+contested: false
+---
+# 🎯 MiniMax M3
+
+Modèle multimodal open-weights de pointe développé par **MiniMax** (Xiyu Technology). Premier modèle open-weights à combiner **codage agentique de frontière**, **contexte 1M tokens**, et **multimodalité native** (texte, image, vidéo) dans une seule architecture. Utilisé massivement via [[hermes-agent]] et OpenRouter.
+
+## Spécifications
+
+| Version | Paramètres | Contexte | Usage |
+|:---|:---:|:---:|:---|
+| MiniMax M3 | Non divulgué (MoE sparse) | 1M tokens (512K garanti) | Codage, Agents, Multimodal longue-contexte |
+
+## Architecture
+
+- **Type** : Sparse Mixture-of-Experts avec **MSA** (MiniMax Sparse Attention)
+- **MSA** : Remplace l'attention full par une sélection de blocs KV → ~1/20e du calcul par token à 1M de contexte vs génération précédente
+- **Accélération** : >9× prefilling, >15× décodage par rapport à M2.7
+- **Modalités** : Texte, image, vidéo en entrée → texte en sortie
+- **Raisonnement** : Mode thinking activable par requête
+- **Inférence** : API MiniMax / OpenRouter ; auto-hébergement via vLLM/SGLang (avec support MSA)
+
+## Performances
+
+| Benchmark | Score | Position |
+|:---|:---:|:---|
+| **SWE-Bench Pro** | 59.0% | Surpasse GPT-5.5 et Gemini 3.1 Pro |
+| **Terminal-Bench 2.1** | 66% | Agentique haut niveau |
+| **BrowseComp** | 83.5% | Navigation web |
+| **GPQA Diamond** | 92.9% | Raisonnement scientifique |
+| **HLE** | 37.1% | — |
+| **OSWorld-Verified** | 70.06% | Usage ordinateur |
+| **SciCode** | 45.4% | Codage scientifique |
+| **τ²-Bench Telecom** | 88.9% | Agents conversationnels |
+
+### Indices Artifical Analysis
+- **Intelligence Index** : 54.7 (>96% des modèles)
+- **Coding Index** : 43.4 (>89% des modèles)
+- **Agentic Index** : 68.6 (>97% des modèles)
+
+## Licence & Disponibilité
+
+- **Licence** : Open-weights (modified-MIT avec conditions commerciales — à vérifier avant usage produit)
+- **Prix OpenRouter** : 0,30 $/M tokens input, 1,20 $/M tokens output (cache hit : 0,06 $)
+- **Cache** : Taux de hit ~85,9%
+- **Débit** : ~29 tok/s (moyen), 33 tok/s (pic)
+- **API** : OpenRouter (`minimax/minimax-m3`), MiniMAX API, Token Plan ($20-$120/mois)
+- **Date de sortie** : 1er juin 2026 (poids ouverts 10 jours après)
+
+## Pages Liées
+
+- [[minimax]]
+- [[hermes-agent]]
+- [[nous-research]]
+- [[quantification-llm]]
+- [[transformer-architecture]]
+- [[changements-modeles-open-weights]]
+- [[fiches-modeles-llm]]
+- [[minimax-m2-7]]
@@ -0,0 +1,54 @@
+---
+title: Mistral Large 3
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🌀 Mistral Large 3
+
+Modèle phare de Mistral AI, successeur de [[mistral]] (Mistral Large 2). Premier MoE de Mistral depuis la série Mixtral. 41B actifs / 675B totaux, licencié Apache 2.0.
+
+## Spécifications
+
+| Version | Paramètres Actifs | Paramètres Totaux | Contexte | Usage |
+| :--- | :---: | :---: | :---: | :--- |
+| **Mistral Large 3** | 41B | 675B | 256K | Généraliste, codage, entreprise |
+| **Ministral 3 14B** | 14B | 14B | 128K | Edge, local |
+| **Ministral 3 8B** | 8B | 8B | 128K | Edge léger |
+| **Ministral 3 3B** | 3B | 3B | 128K | Mobile, IoT |
+
+## Architecture
+
+- **MoE granulaire** : Architecture sparse Mixture-of-Experts avec 41B paramètres actifs sur 675B totaux.
+- **Multimodal** : Compréhension texte et image natives.
+- **Multilingue** : Performances de pointe en conversations non-anglaises, meilleur de sa catégorie pour le multilinguisme hors anglais/chinois.
+- **Contexte** : 256K tokens.
+- **Entraînement** : Entraîné sur 3 000 GPU NVIDIA H200, de zéro.
+- **Post-training** : Alignment renforcé avec versions base et instruct disponibles. Version reasoning à venir.
+- **Formats** : NVFP4 (llm-compressor), BF16. Optimisé pour Blackwell NVL72 et single node 8×A100 / 8×H100 via vLLM.
+
+## Performances
+
+- Meilleur modèle open-weights permissif (Apache 2.0) à sa sortie.
+- Excellents résultats en codage, raisonnement et compréhension image.
+- Compétitif avec les meilleurs modèles propriétaires sur prompts généraux.
+- Supporté par vLLM, Red Hat, Hugging Face.
+
+## Licence & Disponibilité
+
+- Licence **Apache 2.0** — permissive, usage commercial et fine-tuning libres.
+- Sortie : 2 décembre 2025.
+- Disponible sur : Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, IBM WatsonX, Fireworks, Unsloth AI.
+- Prix API : $0,5/M tokens entrée, $1,5/M tokens sortie.
+
+## Pages Liées
+
+- [[mistral]] — prédécesseur, famille Mistral
+- [[gguf]] — quantification
+- [[exl2]] — quantification alternative
+- [[llama-3-1]] — concurrent Meta
+- [[gemma-4]] — concurrent Google
@@ -0,0 +1,51 @@
+---
+title: Phi-4
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🧠 Phi-4
+
+SLM (Small Language Model) de pointe développé par Microsoft Research. Successeur de [[phi-3-5]], avec 14B paramètres et un focus sur la qualité des données d'entraînement plutôt que la quantité. Idéal pour le déploiement edge et les environnements contraints.
+
+## Spécifications
+
+| Version | Paramètres | Contexte | Entraînement | Usage |
+| :--- | :---: | :---: | :---: | :--- |
+| **Phi-4** | 14B | 16K (4K→16K mid-training) | ~9,8T tokens | Edge, raisonnement, code |
+
+## Architecture
+
+- **Dense decoder-only Transformer** — architecture proche de Phi-3 Medium.
+- **Tokenizer** : tiktoken (vocabulaire 100 352 tokens), meilleur support multilingue.
+- **Attention full** sur 4K (pas de sliding window comme Phi-3).
+- **Données** : Mélange de données synthétiques haute qualité ("textbook-like"), données web filtrées, livres académiques, datasets Q&A.
+- **Pas de distillation** : Phi-4 surpasse son professeur GPT-4 en STEM — preuve que les techniques de data-generation vont au-delà de la distillation.
+- **Entraînement** : 1 920 GPU H100-80G, 21 jours, ~9,8T tokens. Cutoff juin 2024.
+- **Post-training** : SFT + DPO pour alignment et safety.
+- **Multilingue** : ~8% des données d'entraînement.
+
+## Performances
+
+- Excellents résultats en raisonnement STEM (maths, code, science).
+- Surpasse GPT-4o-mini sur plusieurs benchmarks malgré sa taille 14B.
+- Très compétitif face aux modèles 7B-14B sur les tâches de raisonnement.
+- Idéal pour fine-tuning sur tâches spécialisées.
+
+## Licence & Disponibilité
+
+- Licence **MIT** — permissive, libre pour usage commercial, modification et redistribution.
+- Sortie : 12 décembre 2024.
+- Format : BF16 (Safetensors, ~15B params).
+- Disponible sur Hugging Face (`microsoft/phi-4`), Azure AI Foundry.
+
+## Pages Liées
+
+- [[phi-3-5]] — prédécesseur
+- [[gguf]] — quantification pour déploiement edge
+- [[exl2]] — quantification alternative
+- [[gemma-4]] — concurrent Google (E2B/E4B edge)
@@ -0,0 +1,47 @@
+---
+title: Qwen 3.5
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, open-source, chinese, multimodal, moe]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🐉 Qwen 3.5
+
+Famille de modèles de fondation de **Qwen / Alibaba**, publiée à partir de février 2026. Qwen 3.5 combine une stratégie **open-weight Apache 2.0** pour plusieurs tailles et une déclinaison **hébergée** plus orientée production. La série se distingue par une architecture hybride **Gated DeltaNet + MoE**, un support **multimodal natif**, une couverture de **201 langues et dialectes**, et un fort accent sur les usages **agentiques** et le **codage**.
+
+## Spécifications
+| Version | Paramètres | Contexte | Usage |
+|:---|:---:|:---:|:---|
+| Qwen3.5-397B-A17B | 397B total / 17B actifs | 262K natif, ~1M via YaRN | Flagship open-weight, multimodal, agents |
+| Qwen3.5-122B-A10B | 122B total / 10B actifs | 262K natif, ~1M via YaRN | Raisonnement, code, agentique |
+| Qwen3.5-35B-A3B | 35B total / 3B actifs | 262K natif, ~1M via YaRN | Déploiement plus accessible, multimodal |
+| Qwen3.5-27B | 27B dense | 262K natif, ~1M via YaRN | Version dense généraliste |
+| Qwen3.5-9B / 4B / 2B / 0.8B | 9B à 0.8B | 262K natif, ~1M via YaRN | Petites variantes locales |
+| Qwen3.5-Plus / Flash | Variante hébergée | jusqu’à 1M tokens | API managée avec outils intégrés |
+
+## Architecture
+- **Type** : architecture hybride **Gated Delta Networks + sparse Mixture-of-Experts**
+- **Multimodal natif** : entraînement à fusion précoce sur texte, image et vidéo
+- **Langues** : **201 langues et dialectes**
+- **Contexte** : **262 144 tokens** natifs sur les open weights, extensibles à environ **1 010 000** via **YaRN** ; les variantes hébergées offrent **1M** par défaut
+- **Exemple Qwen3.5-35B-A3B** : **256 experts**, **8 experts routés + 1 expert partagé**, licence **[[apache-2]]**, distribution compatible **Transformers**, **vLLM**, **SGLang**, **KTransformers**
+- **Distribution** : poids officiels sur **Hugging Face** et **ModelScope** pour la série open-weight
+
+## Performances
+- **Qwen3.5-35B-A3B** : **MMLU-Pro 85.3**, **GPQA Diamond 84.2**, **SWE-bench Verified 69.2**, **Terminal Bench 2 40.5**, **LiveCodeBench v6 74.6**, **TAU2-Bench 81.2**, **BrowseComp 61.0**
+- **Qwen3.5-122B-A10B** : **MMLU-Pro 86.7**, **GPQA Diamond 86.6**, **SWE-bench Verified 72.0**, **Terminal Bench 2 49.4**, **LiveCodeBench v6 78.9**
+- **Famille Qwen 3.5** : le dépôt officiel met en avant une amélioration simultanée sur le raisonnement, le code, les agents et la vision par rapport à la génération Qwen 3
+- **Hosted variants** : les fiches officielles indiquent que **Qwen3.5-Flash** correspond à une déclinaison production du **35B-A3B**, avec **1M de contexte** et des **outils intégrés**
+
+## Licence & Disponibilité
+- **Licence** : **Apache 2.0** pour les modèles open-weight — [[apache-2]]
+- **Poids** : disponibles sur **Hugging Face** et **ModelScope**
+- **API** : **Alibaba Cloud Model Studio** pour les variantes hébergées (notamment **Qwen3.5-Plus** et **Qwen3.5-Flash**)
+- **Usage local** : déploiement possible avec **[[ollama]]**, **[[llama-cpp]]**, **[[gguf]]** et **[[exl2]]** via l’écosystème et les conversions communautaires selon les variantes
+- **Dates de sortie** : **2026-02-16** pour le 397B-A17B initial ; **2026-02-24** pour 122B-A10B / 35B-A3B / 27B ; **2026-03-02** pour 9B / 4B / 2B / 0.8B
+
+## Pages Liées
+[[qwen-3-7]] [[deepseek-v4]] [[glm-5]] [[llama-4]] [[ollama]] [[llama-cpp]] [[gguf]] [[exl2]] [[apache-2]]
@@ -0,0 +1,63 @@
+---
+title: Qwen 3.6 Plus
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, agent, multimodal]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🐉 Qwen 3.6 Plus
+
+Modèle **propriétaire** d’**Alibaba / Qwen Team**, disponible principalement via **API** dans Alibaba Cloud Model Studio. Qwen 3.6 Plus est positionné comme le modèle par défaut pour les flux agentiques, le codage sur grands dépôts et les usages multimodaux longue-contexte, juste avant la montée en gamme vers [[qwen-3-7]].
+
+## Spécifications
+
+| Propriété | Valeur |
+| :--- | :--- |
+| **Type d’accès** | API / service hébergé |
+| **Contexte** | **1M** tokens |
+| **Entrées** | texte, images, vidéo |
+| **Sortie** | texte |
+| **Max output** | **64K** tokens |
+| **Images** | jusqu’à **256** images |
+| **Vidéos** | jusqu’à **64** vidéos |
+| **Vidéo** | jusqu’à **2 h** / **2 Go** |
+| **Outils natifs** | web search, code execution, web scraping |
+| **Function calling** | oui |
+| **Structured output** | oui |
+| **Snapshot connu** | `qwen3.6-plus-2026-04-02` |
+
+## Architecture
+
+- **Statut** : architecture exacte non entièrement divulguée publiquement pour la variante Plus hébergée.
+- **Orientation produit** : modèle conçu pour les **agents réels**, le **repository-level coding**, la planification multi-étapes et l’exécution d’outils.
+- **Mode raisonnement** : prise en charge du *thinking* et du paramètre **`preserve_thinking`**, utile pour conserver le raisonnement inter-tours dans les scénarios agentiques.
+- **Multimodalité** : comprend texte, image et vidéo dans un même pipeline ; Alibaba le recommande aussi pour l’extraction visuelle et l’analyse documentaire générale.
+- **API** : compatible avec les interfaces **OpenAI-style** et **Anthropic-compatible** dans Model Studio.
+- **Auto-hébergement** : non, contrairement à certaines variantes open-weight de la famille Qwen ; Qwen 3.6 Plus lui-même reste un modèle hébergé, pas un modèle à distribuer en [[gguf]] ou [[exl2]].
+
+## Performances
+
+- Alibaba présente Qwen 3.6 Plus comme un **saut majeur** par rapport à Qwen 3.5 Plus sur le **codage agentique**, les opérations terminal, la résolution de problèmes à l’échelle dépôt et le raisonnement multimodal.
+- Le modèle est explicitement mis en avant pour les **grands codebases** grâce à son **contexte 1M**.
+- Sur la communication officielle, Qwen 3.6 Plus est décrit comme un **all-rounder** combinant raisonnement, mémoire longue et exécution d’outils.
+- Dans la gamme Alibaba de 2026, il sert de **point d’équilibre performance/coût**, alors que [[qwen-3-7]] pousse plus loin les capacités de fondation et d’autonomie.
+- Pour un usage local ou quantifié, il faut plutôt se tourner vers des variantes open-weight séparées ; cette version Plus n’est pas destinée à [[llama-cpp]], [[ollama]], [[gguf]] ou [[exl2]].
+
+## Licence & Disponibilité
+
+- **Licence** : propriétaire ; **pas de poids ouverts** pour Qwen 3.6 Plus.
+- **Disponibilité** : Alibaba Cloud Model Studio, Qwen Chat, intégrations tierces compatibles API.
+- **Fonctionnalités intégrées** : outils natifs côté plateforme, function calling, structured outputs, batch calling selon région.
+- **Tarification** : variable selon région et mode de facturation Model Studio ; voir la documentation Alibaba pour les détails à jour.
+
+## Pages Liées
+
+- [[qwen-3-7]]
+- [[ollama]]
+- [[gguf]]
+- [[exl2]]
+- [[llama-cpp]]
+- [[quantification-llm]]
@@ -0,0 +1,40 @@
+---
+title: Qwen 3.7
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, chinese]
+sources: [web research]
+confidence: high
+contested: false
+---
+# 🐉 Qwen 3.7
+
+Série de modèles propriétaires d'Alibaba (Qwen Team), positionnée comme modèle fondateur pour l'ère agentique. Optimisée pour le codage, l'automatisation de bureau et l'exécution autonome longue durée. Variante Max (texte seul) et Plus (multimodale) disponibles via API uniquement. N°3 mondial au BenchLM.ai (92/100).
+
+## Spécifications
+| Version | Paramètres | Contexte | Usage |
+|:---|:---:|:---:|:---|
+| Qwen3.7-Max | Non divulgué (MoE, ~1T estimé) | 1M tokens | Texte seul, raisonnement, agents |
+| Qwen3.7-Plus | Non divulgué | 1M tokens | Multimodal (texte, image, vidéo) |
+
+## Architecture
+- **Type** : Mixture of Experts (MoE) — architecture propriétaire, proche du design Qwen3.6-Max-Preview (~1T params)
+- **Raisonnement** : Hybride thinking/non-thinking, paramètre `preserve_thinking` pour chaîne de raisonnement inter-tours
+- **Support quantification** : [[gguf]] et [[exl2]] (via communautaire sur versions open-weight précédentes)
+
+## Performances
+- **GPQA Diamond** : 92.4 (dépasse Claude Opus 4.6 à 91.3)
+- **SWE-Verified** : 80.4 (à parité avec Opus 4.6 à 80.8 et DS V4 Pro à 80.6)
+- **SWE-Pro** : 60.6 | **SWE-Multilingual** : 78.3 | **Terminal-Bench 2.0** : 69.7
+- **MCP-Mark** : 60.8 | **MCP-Atlas** : 76.4 | **SkillsBench** : 59.2
+- **HLE** : 41.4 | **HMMT 2026 Feb** : 97.1 | **SpreadSheetBench-v1** : 87.0
+- **Arena Elo** : 1475 | **Artificial Analysis Intelligence Index** : 56.6 (7e mondial)
+
+## Licence & Disponibilité
+- **Licence** : Propriétaire (API only), pas de poids ouverts
+- **API** : Alibaba Cloud Model Studio — $2.50/$7.50 par M tokens (input/output)
+- **Accès gratuit** : Qwen Chat (compte requis)
+
+## Pages Liées
+[[llama-3-1]] [[deepseek-v4]] [[mistral]] [[phi-3-5]] [[gguf]] [[exl2]]
@@ -0,0 +1,41 @@
+---
+title: Yi-Large
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, proprietary, chinese]
+sources: [web research]
+confidence: medium
+contested: false
+---
+# ⚡ Yi-Large
+
+Modèle propriétaire phare de **01.AI** lancé en 2024 pour concurrencer GPT-4 sur des usages généralistes, bilingues et orientés API. Yi-Large a servi de vitrine commerciale fermée pour la famille Yi avant d’être supplanté par [[yi-lightning]] sur le rapport coût/performance. Sa disponibilité est principalement **API-only**, avec une présence confirmée chez 01.AI et NVIDIA NIM.
+
+## Spécifications
+| Version | Paramètres | Contexte | Usage |
+|:---|:---:|:---:|:---|
+| Yi-Large | ~102.6B (MoE, 32 experts / 4 actifs, selon catalogues tiers) | 32K tokens | Chat généraliste, raisonnement, code, multilingue |
+| Yi-Large-Preview | Non divulgué publiquement | 32K tokens | Variante antérieure utilisée comme point de comparaison dans le rapport Yi-Lightning |
+
+## Architecture
+- **Type** : modèle propriétaire de grande taille ; les catalogues tiers le décrivent comme un **Mixture-of-Experts** d’environ **102.6B** paramètres
+- **Topologie rapportée** : **32 experts**, **4 experts actifs par token**, **64 couches**, **GQA**, dimension cachée **8192** (données issues d’InferenceBench)
+- **Modalité** : **texte seul**
+- **Contexte** : **32 768 tokens**
+- **Positionnement** : modèle fermé premium de 01.AI, axé sur la qualité générale et l’usage API plutôt que sur l’open-weight
+
+## Performances
+- **Yi-Large-Preview** (rapporté dans le papier Yi-Lightning) : **GPQA 43.8**, **MATH 62.6**, **HumanEval 75.6**, **IFEval 79.3**, **WildBench 55.3**, **Arena-Hard 79.1**, **AlignBench 7.20**, **MT-Bench 8.32**
+- **AlpacaEval 2.0** : 01.AI a communiqué un rang **2e derrière GPT-4 Turbo** en **LC Win Rate** au lancement
+- **SuperCLUE / évaluations chinoises** : communication de 01.AI reprise par KR-Asia, indiquant des scores supérieurs à GPT-4 sur plusieurs sous-benchmarks chinois
+- **Catalogues tiers** : InferenceBench mentionne **MMLU 78**, **HumanEval 47**, **GSM8K 82** ; ces chiffres doivent être lus avec prudence car ils ne proviennent pas d’un rapport technique officiel détaillé de Yi-Large
+
+## Licence & Disponibilité
+- **Licence** : **propriétaire**, pas de poids ouverts
+- **Accès** : **01.AI Platform**, **NVIDIA NIM**, et présence historique chez certains routeurs/API tiers
+- **Tarification observée** : environ **$3 / M tokens** en entrée et en sortie chez plusieurs agrégateurs ; 01.AI a aussi communiqué un prix de lancement d’environ **20 RMB / M tokens**
+- **Usage local** : pas de distribution officielle open-weight connue pour Yi-Large
+
+## Pages Liées
+[[yi-lightning]] [[qwen-3-7]] [[deepseek-v4]] [[mistral-large-3]] [[llama-4]]
@@ -0,0 +1,40 @@
+---
+title: Yi-Lightning
+created: 2026-06-11
+updated: 2026-06-11
+type: entity
+tags: [model, architecture, proprietary, chinese, moe]
+sources: [web research]
+confidence: high
+contested: false
+---
+# ⚡ Yi-Lightning
+
+Modèle propriétaire **Mixture-of-Experts** de **01.AI**, présenté en octobre 2024 comme successeur plus rapide, moins cher et mieux aligné que Yi-Large. Yi-Lightning a surtout marqué par son **excellent rang Chatbot Arena** et par une stratégie agressive de **réduction des coûts d’inférence**, avec un prix plancher autour de **0,99 RMB / million de tokens**.
+
+## Spécifications
+| Version | Paramètres | Contexte | Usage |
+|:---|:---:|:---:|:---|
+| Yi-Lightning | ~200B total (MoE, 32 experts / 4 actifs selon catalogues tiers) | 16K tokens en API publique, 64K après extension long-contexte dans le rapport technique | Chat généraliste, code, math, raisonnement, multilingue |
+
+## Architecture
+- **Type** : **Mixture-of-Experts (MoE)** propriétaire
+- **Architecture rapportée** : fine-grained expert segmentation, routage amélioré, équilibrage **PEP** et optimisation du **KV-cache**
+- **Long contexte** : le rapport technique décrit une extension jusqu’à **64K tokens** par entraînement dédié ; les offres API publiques observées exposent surtout **16K**
+- **Serving** : arbitrage explicite entre **vitesse** et **qualité**, le rapport signalant que certains scores API peuvent être légèrement inférieurs aux évaluations en déploiement local interne
+- **Positionnement** : modèle fermé optimisé pour la préférence utilisateur réelle plutôt que pour la seule maximisation des benchmarks académiques
+
+## Performances
+- **Chatbot Arena** : **6e mondial** au 16 octobre 2024, score **1287**, à égalité avec **Grok-2-08-13** et au-dessus du GPT-4o initial selon le rapport technique
+- **Sous-classements Arena** : **2e en chinois**, **3e en multi-turn** et **math**, **4e en coding**, **hard prompts** et **longer query**
+- **Benchmarks académiques** (rapport technique) : **GPQA 50.9**, **MATH 76.4**, **HumanEval 83.5**, **IFEval 81.9**, **WildBench 65.1**, **Arena-Hard 91.8**, **AlignBench 7.54**, **MT-Bench 8.75**
+- **Comparatif interne** : dépasse nettement **Yi-Large-Preview** sur la plupart des mesures publiées dans le technical report
+
+## Licence & Disponibilité
+- **Licence** : **propriétaire**, API only
+- **Accès** : plateforme développeur **01.AI** ; disponibilité constatée aussi chez divers agrégateurs/API compatibles
+- **Tarification** : **0.99 RMB / million de tokens** au lancement, souvent converti autour de **$0.14 / M** dans les comparateurs internationaux
+- **Poids** : non ouverts ; pas de distribution officielle Hugging Face/ModelScope pour ce modèle fermé
+
+## Pages Liées
+[[deepseek-v4]] [[qwen-3-7]] [[mistral-large-3]] [[llama-4]]
@@ -5,26 +5,46 @@ sticker: emoji//1f4c7

 > Content catalog. Every wiki page listed under its type with a one-line summary.
 > Read this first to find relevant pages for any query.
-> Last updated: 2026-06-06 | Total pages: 0
+> Last updated: 2026-06-11 | Total pages: ~1 726

 ## Entities
 - [[ansible]]: Outil d'automatisation et de gestion de configuration.
 - [[apache-2]]: Licence permissive avec clause de brevets.
+- [[claude-4]]: Famille Anthropic (Opus/Sonnet/Haiku), référence propriétaire en raisonnement et code.
 - [[chezmoi]]: Gestionnaire de dotfiles avec support templates.
+- [[command-a]]: Grand modèle Cohere orienté entreprise, 111B, 256k contexte et tool-use natif.
+- [[command-r-plus]]: Ancien grand modèle Cohere très fort en RAG et tool-use multi-étapes.
 - [[crowdsec]]: Système de détection d'intrusions collaboratif.
+- [[deepseek-r1]]: Modèle de raisonnement open-weight DeepSeek, 671B/37B actifs, MIT, très fort en maths et code.
+- [[deepseek-v3-1]]: Révision hybride de DeepSeek V3, pensée/non-pensée et function calling natif.
+- [[deepseek-v4]]: LLM 1.6T MoE de DeepSeek (MIT), architecture CSA/HCA, SOTA raisonnement.
+- [[deepseek-v4-flash]]: Version distillée rapide de DeepSeek V4 (284B MoE), idéale pour usage agentique intensif.
 - [[docker]]: Plateforme de conteneurisation pilier de l'auto-hébergement.
 - [[exl2]]: Format de quantification rapide pour GPU Nvidia.
 - [[fail2ban]]: Outil classique de bannissement d'IP malveillantes.
+- [[gemma-3]]: Génération Google open-weights avant Gemma 4, vision native et jusqu’à 128k contexte.
+- [[gemma-4]]: Modèles ouverts Google (2B-31B), superbes pour fine-tuning, licence permissive.
+- [[gemini-2-5-flash]]: Modèle Google ultra-rapide à 1M de contexte, excellent ratio coût/performance.
+- [[gemini-2-5-pro]]: Haut de gamme Google, 1M de contexte, multimodal, très fort en vidéo et dev.
 - [[gitea]]: Forge Git légère et auto-hébergée.
+- [[glm-5]]: LLM open-source Zhipu AI (744B/40B, MIT), meilleur open-weight à sa sortie.
 - [[gguf]]: Format de fichier standard pour modèles quantifiés.
 - [[gpl-v3]]: Licence copyleft imposant la liberté du code dérivé.
+- [[gpt-5]]: Famille phare d’OpenAI, 400k contexte, tool-use et reasoning configurables.
+- [[grok-4]]: Famille xAI orientée temps réel et raisonnement, avec contexte doc/API en forte évolution.
 - [[hermes-agent]]: Agent IA autonome auto-améliorant développé par Nous Research.
+- [[kimi-k2-5]]: Moonshot AI — version précédente de K2.6, multimodale et agentique, 1T/32B actifs.
+- [[kimi-k2-6]]: Moonshot AI — MoE 1T/32B, SWE-Bench 80.2%, codage agentique intensif.
 - [[llama-3-1]]: Série de modèles Meta (8B, 70B, 405B) avec contexte 128k.
+- [[llama-4]]: Successeur Meta (Scout 10M ctx, Maverick MoE), multimodale, licence commerciale.
 - [[llama-cpp]]: Moteur d'inférence C++ utilisé par Ollama.
 - [[matrix]]: Protocole de communication décentralisé et fédéré.
- [[ml-kem]]: Standard NIST (Kyber) pour le chiffrement post-quantique.
- [[mit]]: Licence ultra-permissive.
+- [[minimax-m3]]: MiniMax M3 — MoE avec MSA, 1M ctx, SWE-Bench Pro 59.0%, excellent ratio Q/P.
+- [[mimo-v2-5]]: Xiaomi MiMo V2.5 — modèle open-source omnimodal, 310B/15B actifs et 1M contexte.
 - [[mistral]]: Modèles de Mistral AI (Large 2 123B, NeMo 12B).
+- [[mistral-large-3]]: Mistral Large 3 — 41B/675B MoE, Apache 2.0, entraîné sur 3000 H200.
+- [[mit]]: Licence ultra-permissive.
+- [[ml-kem]]: Standard NIST (Kyber) pour le chiffrement post-quantique.
 - [[nextcloud]]: Cloud personnel et collaboratif open-source.
 - [[nous-research]]: Laboratoire de recherche spécialisé dans l'IA open-source.
 - [[ollama]]: Moteur d'inférence local pour LLMs.
@@ -32,7 +52,13 @@ sticker: emoji//1f4c7
 - [[openssh]]: Implémentation open-source de SSH avec support hybride PQC.
 - [[penpot]]: Outil de design collaboratif basé sur le SVG.
 - [[phi-3-5]]: SLM de Microsoft (Mini, MoE) optimisés pour la qualité des données.
+- [[phi-4]]: Microsoft Phi-4 — 14B dense, MIT, surpasse GPT-4 en STEM, edge-ready.
+- [[qwen-3-5]]: Génération Qwen 3.5 open-weight, long contexte et très forte polyvalence.
+- [[qwen-3-6-plus]]: Variante API Alibaba à 1M de contexte, multimodale et orientée agents.
+- [[qwen-3-7]]: Alibaba Qwen 3.7 — MoE ~1T, 1M ctx, top benchmarks codage (API only).
 - [[restic]]: Outil de sauvegarde avec déduplication et chiffrement.
+- [[yi-large]]: Modèle propriétaire 01.AI, polyvalent, API-only, génération précédente à Yi-Lightning.
+- [[yi-lightning]]: 01.AI — modèle très compétitif en Chatbot Arena, fort en code et math.
 - [[api-rest]]: Architecture HTTP standard pour les APIs.
 - [[api-gateway]]: Point d'entrée unique pour toutes les APIs d'un système.
 - [[architecture-microservices]]: Style d'architecture découplant l'app en services autonomes.
@@ -4,6 +4,29 @@
 > Format: `## [YYYY-MM-DD] action | subject`
 > Actions: ingest, update, query, lint, create, archive, delete

+## [2026-06-11] create | 7 fiches modèles IA (Phase 2A — Lot 3)
+- Nouveaux entities : [[gemini-2-5-pro]], [[gemini-2-5-flash]], [[grok-4]], [[command-r-plus]], [[deepseek-r1]], [[deepseek-v3-1]], [[kimi-k2-5]]
+- Positionnement couvert : Google, xAI, Cohere, DeepSeek, Moonshot AI
+- Index.md mis à jour (entities section, +7 entrées)
+- Phase 2A très bien avancée : principales familles 2025-2026 désormais couvertes
+
+## [2026-06-11] create | 9 fiches modèles IA (Phase 2A — Lot 2)
+- Nouveaux entities : [[claude-4]], [[gpt-5]], [[command-a]], [[gemma-3]], [[qwen-3-6-plus]], [[mimo-v2-5]], [[yi-large]], [[yi-lightning]], [[qwen-3-5]]
+- Positionnement couvert : Anthropic, OpenAI, Cohere, Google, Alibaba, Xiaomi MiMo, 01.AI
+- Index.md mis à jour (entities section, +9 entrées)
+- Reste à faire Lot 3 : DeepSeek R1/V3.1, Grok 4, Gemini 2.5 Pro/Flash, Command-R+, Qwen 3.7 Max, Kimi K2.5
+
+## [2026-06-11] create | 10 fiches modèles IA (Phase 2A — Lot 1)
+- Nouveaux entities : [[deepseek-v4]], [[deepseek-v4-flash]], [[gemma-4]], [[glm-5]], [[kimi-k2-6]], [[llama-4]], [[minimax-m3]], [[mistral-large-3]], [[phi-4]], [[qwen-3-7]]
+- Chaque fiche : architecture, spécifications, benchmarks, licence, wikilinks
+- Index.md mis à jour (entities section, +10 entrées)
+- Reste à faire Lot 2 : Claude 4, GPT 5, Yi-Lightning/Max, Command-A, MiMo V2.5, Qwen 3.5/3.6, Gemma 3
+
+## [2026-06-11] create | Roadmap d'expansion du wiki
+- Créé `roadmap/expansion-wiki-tech.md` — 6 phases pour passer de 1 700 à ~3 000 pages
+- Axes : IA ~120 pages, auto-hébergement ~70 pages, guides ~90 pages, comparatifs ~50 pages, licences ~40 pages
+- Phase 1 (catalogue self-hébergé) en continuation directe avec priorité max
+
 ## [2026-06-08] update | Fusion doublon app Tandoor
 - **Diagnostic corrigé** : il n’existait pas de `cat-tandoor.md` ; le vrai problème était un **doublon d’app** entre `app-tandoor.md` et `app-tandoor-recipes.md`
 - `app-tandoor-recipes.md` gardée comme **fiche canonique**
@@ -0,0 +1,378 @@
+---
+title: Roadmap d'Expansion du Wiki Tech/IA/Open-Source/Auto-hébergement
+created: 2026-06-11
+updated: 2026-06-11
+type: roadmap
+tags: [meta, roadmap, plan]
+confidence: high
+---
+
+# 🗺️ Roadmap d'Expansion — Wiki Tech / IA / Open-Source / Auto-hébergement
+
+> **Objectif** : Passer de ~1 700 pages à **3 000+ pages** en plusieurs phases, en couvrant 6 axes complémentaires.
+> **Méthode** : Une phase à la fois, avec mise à jour du PROJET-CATALOGUE et du `log.md` à chaque étape.
+> **Dernière mise à jour** : 2026-06-11 | Pages actuelles : ~1 700
+
+---
+
+## 📊 Résumé des 6 axes
+
+| # | Axe | Pages actuelles | Pages cibles | Effort estimé |
+|---|-----|:-----:|:-----:|:-----:|
+| 1 | 🏷️ Compléter le catalogue self-hébergé | ~1 545 | ~1 800 | ⭐⭐⭐ |
+| 2 | 🧠 Concepts IA | ~20 | ~300 | ⭐⭐⭐⭐ |
+| 3 | ☸️ Concepts auto-hébergement avancés | ~15 | ~200 | ⭐⭐⭐ |
+| 4 | 📗 Guides & tutos pratiques | ~7 | ~200 | ⭐⭐⭐ |
+| 5 | ⚖️ Comparatifs par catégorie | ~17 | ~150 | ⭐⭐ |
+| 6 | 🏛️ Licences & écosystème open-source | ~3 | ~80 | ⭐ |
+| | **TOTAL** | **~1 700** | **~2 700+** | |
+
+---
+
+## 🔥 Phase 1 — Terminer le catalogue (priorité max)
+
+**État** : ~1 545 fiches sur ~700 apps cataloguées dans selfh.st.
+
+### Catégories restantes à couvrir
+
+| Catégorie | Tag ID | Apps estimées | Collisions probables | Priorité |
+|-----------|:------:|:-----:|:-----:|:-----:|
+| Messaging / Chat | 21 | ~25 | Faible | P1 |
+| Remote Access | 18 | ~22 | Moyenne | P1 |
+| Observability / Tracing | 78 | ~18 | Faible | P1 |
+| Proxy / Load Balancer | 86 | ~15 | Élevée (→ Reverse Proxy) | P1 |
+| Finance / Budgeting | 50 | ~30 | Faible | P2 |
+| Inventory / Asset Mgmt | 83 | ~12 | Faible | P2 |
+| Knowledge Base / Wiki | 58 | ~14 | Faible | P2 |
+| Communication (VoIP) | 119 | ~10 | Faible | P2 |
+| Analytics / Matomo-like | 94 | ~12 | Faible | P3 |
+| Gaming | 61 | ~20 | Faible | P3 |
+| E-commerce | 133 | ~8 | Faible | P3 |
+| Autres petites catégories | divers | ~40 | Variable | P3 |
+
+**Objectif Phase 1** : ~200-250 fiches supplémentaires → **1 800+ fiches de catalogue**.
+
+### Méthode
+- [[references/scrape-selfhst-cdn.md]] pour le scraping CDN
+- [[references/parallel-fiche-delegation.md]] pour la production en parallèle
+- [[references/catalogue-session-7cat-2026-06-08.md]] pour le mode "travaille seul"
+- Mini-fiches `app-redirect` pour les collisions ([[references/deduplication-multi-category.md]])
+- Mise à jour PROJET-CATALOGUE.md à chaque fin de session
+
+---
+
+## 🧠 Phase 2 — Concepts IA (l'axe le plus riche)
+
+**État** : ~20 pages (modèles, techniques de base).
+
+### Sous-axes à développer
+
+#### 2A — Modèles (fiches individuelles)
+
+Ajouter une fiche par modèle notable, avec architecture, perf, licence, disponibilité :
+
+| Modèle | Constructeur | Taille | Particularité |
+|--------|-------------|:------:|--------------|
+| [[Qwen3.5]] / [[Qwen3.6]] / [[Qwen3.7]] | Alibaba | 0.5B-236B | MoE, long contexte |
+| [[DeepSeek-V4]] / [[DeepSeek-V4-Flash]] | DeepSeek | 671B MoE | Flash = distillation rapide |
+| [[Gemma-4]] / [[Gemma-3]] | Google | 2B-27B | Ouvert, bien pour fine-tune |
+| [[Claude-4]] | Anthropic | ? | Propriétaire mais référent |
+| [[GPT-5]] | OpenAI | ? | Référent propriétaire |
+| [[Llama-4]] | Meta | 8B-405B | Standard ouvert |
+| [[Mistral-Large-3]] / [[Mistral-Small-3]] | Mistral AI | 24B-123B | Européen, open-weight |
+| [[Yi-Lightning]] / [[Yi-Large]] | 01.AI | 6B-34B | Optimisé inférence |
+| [[Phi-4]] | Microsoft | 14B | Petit mais performant |
+| [[Command-R-plus]] / [[Command-A]] | Cohere | 35B-52B | RAG natif |
+
+~30 fiches modèles.
+
+#### 2B — Architectures & Concepts fondamentaux
+
+| Concept | Description |
+|---------|-------------|
+| [[Mixture-of-Experts]] | MoE — routage par tokens vers sous-réseaux |
+| [[Multi-Head-Latent-Attention]] | MLA — économie de cache KV (DeepSeek) |
+| [[Grouped-Query-Attention]] | GQA — compromis qualité/vitesse |
+| [[State-Space-Models]] | Mamba, Mamba-2 — alternatives aux transformers |
+| [[Soft-Mixture-of-Experts]] | Soft MoE — pas de routage discret |
+| [[Rotary-Position-Embedding]] | RoPE — position encodée dans l'attention |
+| [[KV-Cache]] | Cache d'attention pour inférence rapide |
+| [[Speculative-Decoding]] | Décodage spéculatif — petit modèle + grand modèle |
+| [[Quantization]] | GGUF, EXL2, AWQ, bitsandbytes, FP8 |
+| [[Distillation]] | Knowledge distillation, dataset synthétique |
+| [[Context-Distillation]] | Distillation de contexte long vers court |
+
+~15 pages.
+
+#### 2C — Fine-tuning & Entraînement
+
+| Concept | Description |
+|---------|-------------|
+| [[LoRA]] / [[QLoRA]] | Low-Rank Adaptation — fine-tuning paramètre-efficace |
+| [[DPO]] | Direct Preference Optimization — pas de modèle de récompense |
+| [[RLHF]] | Reinforcement Learning from Human Feedback |
+| [[GRPO]] | Group Relative Policy Optimization — RL sans critique (DeepSeek) |
+| [[SFT]] | Supervised Fine-Tuning — le classique |
+| [[Curriculum-Learning]] | Apprentissage progressif par difficulté |
+| [[Data-Mixing]] | Stratégie de mélange des données d'entraînement |
+| [[Synthetic-Data]] | Génération de données d'entraînement par LLM |
+
+~12 pages.
+
+#### 2D — Techniques Agentiques & Inférence
+
+| Concept | Description |
+|---------|-------------|
+| [[Tool-Use]] / [[Function-Calling]] | Appel d'outils structuré |
+| [[ReAct]] | Reasoning + Acting — boucle pensée/action |
+| [[Chain-of-Thought]] | Décomposition pas-à-pas |
+| [[Tree-of-Thoughts]] | Exploration d'arbres de raisonnement |
+| [[RAG]] | Retrieval-Augmented Generation — les variantes |
+| [[Reranking]] | Cross-encoder pour reclasser les résultats RAG |
+| [[Embeddings]] | Vectorisation sémantique (texte, image, code) |
+| [[MCP-Protocol]] | Model Context Protocol — standard de contexte |
+| [[A2A-Protocol]] | Agent-to-Agent — standard de communication entre agents |
+| [[Structured-Outputs]] | JSON mode, grammar, outils de parsing |
+| [[Streaming]] | Server-Sent Events, décodage incrémental |
+| [[Prompt-Caching]] | Cache de contexte système/répété |
+
+~15 pages.
+
+#### 2E — Benchmarks & Évaluation
+
+| Benchmarks connus | Description |
+|-------------------|-------------|
+| [[SWE-bench]] | Résolution de bugs logiciels réels |
+| [[HumanEval]] / [[MBPP]] | Génération de code Python |
+| [[MMLU]] / [[MMLU-Pro]] | Connaissance multi-domaine |
+| [[GPQA]] | Questions de niveau doctorat |
+| [[AIME]] / [[MATH]] | Mathématiques olympiades |
+| [[Chatbot-Arena]] | Elo ranking par vote humain |
+| [[LMSys-Challenges]] | Évaluation ouverte collaborative |
+| [[HELM]] | Holistic Evaluation of Language Models |
+
+~10 pages.
+
+**Total Phase 2** : ~80-100 pages → porté de 20 à **~120 pages IA**.
+
+---
+
+## ☸️ Phase 3 — Concepts auto-hébergement avancés
+
+**État** : ~15 pages (Docker, SSH, reverse proxy, backup...)
+
+### 3A — Sécurité
+
+| Concept | Description |
+|---------|-------------|
+| [[WAF]] | Web Application Firewall |
+| [[IDS-IPS]] | Intrusion Detection / Prevention |
+| [[CrowdSec-vs-Fail2ban]] | Comparatif détaillé |
+| [[Zero-Trust-Homelab]] | Appliquer le zero-trust chez soi |
+| [[Hardening-Docker]] | Sécurisation des conteneurs |
+| [[SBOM]] | Software Bill of Materials |
+| [[Vulnerability-Scanning]] | Trivy, Grype, Snyk |
+| [[Secrets-Management]] | Vault, SOPS, bitwarden, rbw |
+| [[Honeypot]] | Bastion, CrowdSec bouncers |
+| [[Audit-Logging]] | Centralisation des logs sécurité |
+
+~15 pages.
+
+### 3B — Réseau
+
+| Concept | Description |
+|---------|-------------|
+| [[WireGuard-vs-Tailscale]] | Comparatif VPN |
+| [[Headscale]] | Self-hosted Tailscale control plane |
+| [[SDN]] | Software-Defined Networking |
+| [[MACVLAN]] / [[IPVLAN]] | Modes réseau Docker avancés |
+| [[VXLAN]] | Overlay réseau |
+| [[BGP-Homelab]] | Routage dynamique chez soi |
+| [[DNS-Architecture]] | Résolveurs, bloqueurs, split-horizon |
+| [[Reverse-Proxy-Comparison]] | Traefik vs Caddy vs Nginx vs HAProxy |
+| [[API-Gateway]] vs [[Reverse-Proxy]] | Différence et cas d'usage |
+| [[Load-Balancing]] | Round-robin, least-conn, sticky sessions |
+
+~15 pages.
+
+### 3C — Stockage & Sauvegardes
+
+| Concept | Description |
+|---------|-------------|
+| [[RAID-vs-ZFS-vs-BTRFS]] | Comparatif filesystems |
+| [[Distributed-Storage]] | Longhorn, Rook/Ceph, SeaweedFS |
+| [[Object-Storage]] | MinIO — S3 compatible |
+| [[Backup-3-2-1]] | Stratégie, Restic vs Borg vs Kopia vs Duplicati |
+| [[Immutable-Backups]] | Sauvegardes non-modifiables |
+| [[Offsite-Backup]] | Backblaze B2, rsync.net, auto-hébergé |
+
+~10 pages.
+
+### 3D — Orchestration & Déploiement
+
+| Concept | Description |
+|---------|-------------|
+| [[Kubernetes-Homelab]] | K3s, MicroK8s, Kubeadm |
+| [[Kubernetes-vs-Nomad-vs-Docker-Swarm]] | Comparatif orchestrateurs |
+| [[GitOps]] | ArgoCD, Flux, déploiement déclaratif |
+| [[Coolify-vs-Dokploy-vs-Caprover]] | Comparatif PaaS auto-hébergé |
+| [[Blue-Green-Deployment]] | Déploiement sans interruption |
+| [[Canary-Deployment]] | Déploiement progressif |
+| [[Rolling-Update]] | Mise à jour sans downtime |
+
+~10 pages.
+
+**Total Phase 3** : ~50 pages → porté à **~70 pages auto-hébergement**.
+
+---
+
+## 📗 Phase 4 — Guides & Tutos pratiques
+
+**État** : ~7 pages (checklists actuelles).
+
+### Idées de guides
+
+| Guide | Description | Type |
+|-------|-------------|:----:|
+| **Déployer Authentik avec Traefik + CrowdSec** | SSO complet, pas-à-pas | Tuto |
+| **Migration de NPM vers Traefik** | Tout ce qu'il faut savoir | Tuto |
+| **Durcir un serveur Ubuntu/Debian** | Checklist exhaustive | Checklist |
+| **Sécuriser Docker en production** | Rootless, signatures, scan | Checklist |
+| **Monitoring complet d'un homelab** | Uptime Kuma + Grafana + Loki + Alertes | Tuto |
+| **Sauvegardes automatisées avec Restic** | Scripts, systemd timers, off-site | Tuto |
+| **Déployer Coolify de A à Z** | VPS → Apps en prod | Tuto |
+| **Déployer Dokploy de A à Z** | Alternative à Coolify | Tuto |
+| **Reverse proxy multihôte avec Traefik** | Docker, file providers, middleware | Tuto |
+| **Configurer Tailscale + Headscale** | Mesh VPN, ACLs, exit nodes | Tuto |
+| **Configurer un serveur DNS Hidden Master** | Technitium → HE.NET | Tuto |
+| **Guide complet Postfix/Dovecot** | Mail self-hosté (si tu veux) | Tuto |
+| **[Créer un guide par service du catalogue]** | Les 20 apps les plus complexes | Tuto |
+
+**Objectif Phase 4** : ~50-80 guides → porté à **~60-90 pages**.
+
+---
+
+## ⚖️ Phase 5 — Comparatifs
+
+**État** : ~17 pages.
+
+### Comparatifs à créer (un par catégorie d'outils)
+
+| Catégorie | Outils comparés | Utilité |
+|-----------|----------------|:-------:|
+| Reverse Proxy | Traefik vs Caddy vs Nginx vs HAProxy | ⭐⭐ |
+| Dashboard | Homepage vs Homer vs Dashy vs Flame | ⭐⭐⭐ |
+| SSO | Authentik vs Authelia vs Keycloak vs Casdoor | ⭐⭐⭐ |
+| Monitoring | Uptime Kuma vs Grafana vs Netdata vs Checkmk | ⭐⭐ |
+| Observabilité | Loki vs SigNoz vs Highlight vs BetterStack | ⭐⭐ |
+| Backup | Restic vs Borg vs Kopia vs Duplicati | ⭐⭐ |
+| DNS | Technitium vs AdGuard vs Pi-hole vs Blocky vs Unbound | ⭐⭐ |
+| Mail | Mailcow vs Mailu vs Stalwart vs Maddy | ⭐⭐ |
+| Photo | Immich vs Photoprism vs LibrePhotos vs Piwigo | ⭐⭐ |
+| Media | Jellyfin vs Plex vs Emby | ⭐⭐ |
+| Notes | Joplin vs Outline vs Trillium vs SiYuan vs Obsidian LiveSync | ⭐⭐⭐ |
+| Git | Gitea vs GitLab CE vs Forgejo vs SourceHut | ⭐⭐ |
+| CI/CD | Drone vs Woodpecker vs Concourse vs Jenkins | ⭐ |
+| VPN | WireGuard vs Tailscale vs OpenVPN vs Nebula | ⭐⭐ |
+| Database | PostgreSQL vs MySQL vs MariaDB vs SQLite vs ClickHouse | ⭐⭐ |
+| Queue | RabbitMQ vs Redis vs NATS vs Kafka vs ZeroMQ | ⭐ |
+| Container Registry | Harbor vs Registry vs Zot vs Dragonfly | ⭐ |
+| PaaS | Coolify vs Dokploy vs Caprover vs Kamal | ⭐⭐⭐ |
+| Firewall | CrowdSec vs Fail2ban vs nftables vs OPNsense | ⭐⭐ |
+
+**Objectif Phase 5** : ~30-50 comparatifs → porté à **~50-70 pages**.
+
+---
+
+## 🏛️ Phase 6 — Licences & Écosystème Open-Source
+
+**État** : ~3 pages (Apache-2, GPLv3, MIT).
+
+### Licences à documenter
+
+| Licence | Type | Compatibilité |
+|---------|:----:|:-------------:|
+| [[LGPL-v3]] / [[LGPL-v2.1]] | Copyleft faible | GPL |
+| [[BSD-2-Clause]] / [[BSD-3-Clause]] | Permissive | Apache-2, MIT, GPL |
+| [[MPL-2.0]] | Copyleft faible (fichier) | Apache-2, GPL |
+| [[AGPL-v3]] | Copyleft fort réseau | GPLv3 |
+| [[EUPL]] | Copyleft européen | GPLv3 |
+| [[BSL]] | Business Source License → Apache-2 | ↑ |
+| [[SSPL]] | Server Side Public License — controversée | ↑ |
+| [[Elastic-License]] | BSL-like → Elastic → SSPL | ↑ |
+| [[Commons-Clause]] | Pas vraiment open-source | ↑ |
+| [[Fair-Source]] | Mouvement alternatif | ↑ |
+| [[Unlicense]] / [[CC0]] | Domaine public | Toutes |
+| [[Prosperity]] | Source disponible non-commerciale | ↑ |
+| [[PolyForm]] | Shield, Small Business, Noncommercial | ↑ |
+| [[License-Compatibility-Matrix]] | Tableau de compatibilité complète | ⭐⭐ |
+
+### Écosystème & Fondations
+
+| Sujet | Description |
+|-------|-------------|
+| [[CNCF-Landscape]] | Cloud Native Computing Foundation — projets et catégories |
+| [[Apache-Software-Foundation]] | Gouvernance des projets Apache |
+| [[Linux-Foundation]] | Organisation mère de nombreux projets |
+| [[Mozilla-Foundation]] | Firefox, MDN, Rust |
+| [[OpenAI-Transition]] | Open → Closed → For-profit |
+| [[License-History]] | Évolution des licences open-source (GPL → BSL → SSPL) |
+| [[Commercial-Open-Source]] | Modèles économiques open-source durables |
+| [[Fork-Patterns]] | Quand et pourquoi les projets forkent (Redis/Valkey, Terraform/OpenTofu) |
+
+**Objectif Phase 6** : ~40 pages → porté de 3 à **~40 pages**.
+
+---
+
+## 📋 Plan d'exécution
+
+### Ordre recommandé
+
+```
+Phase 1  →  🏷️ Terminer le catalogue     (priorité max — reprendre là où on était)
+   ↓
+Phase 2  →  🧠 Concepts IA                (le plus gros potentiel de valeur)
+   ↓
+Phase 5  →  ⚖️ Comparatifs               (complète les fiches du catalogue)
+   ↓
+Phase 3  →  ☸️ Concepts auto-hébergement  (approfondir ce qu'on catalogue)
+   ↓
+Phase 4  →  📗 Guides & tutos             (pratique, consolide tout)
+   ↓
+Phase 6  →  🏛️ Licences & open-source     (fondamentaux, moins prioritaire)
+```
+
+Chaque phase peut être réalisée en sessions de 1-2h. Les phases 2-6 se chevauchent — on peut alterner.
+
+### Méthode de travail
+
+- **Sessions normales** : 1 axe par session, `delegate_task` pour les batchs, mise à jour PROJET/log.md en fin de session
+- **Sessions marathon** : enchaîner 3-5 sous-axes avec la méthode [[references/catalogue-session-marathon-night-2026-06-07.md]]
+- **Sessions autonomes** : Velli absent, mode roadmap + `delegate_task` massif
+
+---
+
+## 📈 Suivi de progression
+
+| Phase | Pages cibles | Pages faites | % |
+|-------|:-----------:|:-----------:|:-:|
+| 1 — Catalogue | +250 | 0 | 0% |
+| 2 — IA | +280 | 0 | 0% |
+| 3 — Auto-hébergement | +185 | 0 | 0% |
+| 4 — Guides | +193 | 0 | 0% |
+| 5 — Comparatifs | +133 | 0 | 0% |
+| 6 — Licences | +77 | 0 | 0% |
+| **TOTAL** | **~2 730** | **~1 700** | **62%** |
+
+---
+
+## 🔗 Pages liées
+
+- [[Catalogue-Self-Hosted]] — Le hub du catalogue
+- [[references/scrape-selfhst-cdn.md]] — Scraper selfh.st
+- [[references/parallel-fiche-delegation.md]] — Production parallèle
+- [[references/catalogue-session-7cat-2026-06-08.md]] — Mode travail seul
+- [[references/marathon-night-2026-06-07.md]] — Marathon mode
+- [[Dashboard]] — Le dashboard Dataview du wiki
+- [[log]] — Journal des actions
+- [[PROJET-CATALOGUE]] — Suivi du catalogue