wiki/entities/mimo-v2-5.md

---
title: MiMo V2.5
created: 2026-06-11
updated: 2026-06-11
type: entity
tags: [model, architecture, multimodal, agent]
sources: [web research]
confidence: high
contested: false
---
# 🌌 MiMo V2.5

Modèle **omnimodal open-source** développé par **Xiaomi MiMo** — et non par MiniMax ni Moonshot. MiMo V2.5 vise les usages agentiques multimodaux avec un très long contexte, en combinant compréhension du texte, de l’image, de la vidéo et de l’audio dans une seule architecture MoE ouverte.

## Spécifications

| Version | Paramètres totaux | Paramètres actifs | Contexte | Précision | Modalités |
| :--- | :---: | :---: | :---: | :--- | :--- |
| **MiMo-V2.5-Base** | 310B | 15B | 256K | FP8 (E4M3) mixed | texte, image, vidéo, audio |
| **MiMo-V2.5** | 310B | 15B | **1M** | FP8 (E4M3) mixed | texte, image, vidéo, audio |

- **Date de sortie** : 22 avril 2026
- **Entraînement** : **48T** tokens
- **Positionnement** : version généraliste/efficiente de la série V2.5, en dessous de MiMo-V2.5-Pro mais à coût inférieur
- **Open source** : poids, tokenizer et model card publiés publiquement

## Architecture

- **Éditeur** : **Xiaomi MiMo**.
- **Type** : **Sparse MoE** omnimodal.
- **Backbone** : hérite de **MiMo-V2-Flash**.
- **Experts** : **256 experts routés**, **top-8** actifs par token, pour **15B paramètres actifs**.
- **Couches** : **48 couches** au total, dont **1 dense + 47 MoE**.
- **Attention** : hybride **sliding-window + full attention** avec ratio **5:1**, optimisée pour le contexte long.
- **Encodeurs dédiés** : vision **~729M** et audio **~261M**, reliés au backbone par des projecteurs légers.
- **MTP** : tête **Multi-Token Prediction** à 3 couches pour accélérer l’inférence spéculative.
- **Déploiement** : support documenté côté **vLLM** ; l’écosystème local autour de [[gguf]], [[exl2]], [[llama-cpp]] et [[ollama]] reste plus limité vu l’échelle du modèle.

## Performances

- Xiaomi décrit MiMo V2.5 comme une **forte progression agentique** par rapport à **MiMo-V2-Pro**.
- Sur **Claw-Eval (general subset)**, Xiaomi rapporte **62,3**.
- Le modèle est présenté comme **au niveau de modèles fermés de pointe** sur plusieurs tâches image, vidéo et agentiques multimodales.
- Xiaomi indique qu’il **égale Gemini 3 Pro sur la vidéo** et **Claude Sonnet 4.6** sur certains usages agentiques multimodaux, tout en restant plus efficace en coût que la version Pro.
- MiMo V2.5 se distingue surtout par la combinaison **1M de contexte + multimodalité native + poids ouverts**, davantage que par un positionnement purement local-first.

## Licence & Disponibilité

- **Licence** : **MIT** sur Hugging Face pour le dépôt MiMo-V2.5.
- **Disponibilité** : Hugging Face, ModelScope, plateforme API/MiMo Studio de Xiaomi.
- **Poids ouverts** : oui, contrairement à de nombreux modèles agentiques concurrents hébergés uniquement par API.
- **Inférence** : Xiaomi et vLLM documentent un déploiement serveur ; le besoin matériel reste élevé (par ex. configuration vLLM documentée autour de **4× H200**).

## Pages Liées

- [[ollama]]
- [[gguf]]
- [[exl2]]
- [[llama-cpp]]
- [[quantification-llm]]