Modèle omnimodal open-source développé par Xiaomi MiMo — et non par MiniMax ni Moonshot. MiMo V2.5 vise les usages agentiques multimodaux avec un très long contexte, en combinant compréhension du texte, de l’image, de la vidéo et de l’audio dans une seule architecture MoE ouverte.
Spécifications
Version
Paramètres totaux
Paramètres actifs
Contexte
Précision
Modalités
MiMo-V2.5-Base
310B
15B
256K
FP8 (E4M3) mixed
texte, image, vidéo, audio
MiMo-V2.5
310B
15B
1M
FP8 (E4M3) mixed
texte, image, vidéo, audio
Date de sortie : 22 avril 2026
Entraînement : 48T tokens
Positionnement : version généraliste/efficiente de la série V2.5, en dessous de MiMo-V2.5-Pro mais à coût inférieur
Open source : poids, tokenizer et model card publiés publiquement
Architecture
Éditeur : Xiaomi MiMo.
Type : Sparse MoE omnimodal.
Backbone : hérite de MiMo-V2-Flash.
Experts : 256 experts routés, top-8 actifs par token, pour 15B paramètres actifs.
Couches : 48 couches au total, dont 1 dense + 47 MoE.
Attention : hybride sliding-window + full attention avec ratio 5:1, optimisée pour le contexte long.
Encodeurs dédiés : vision ~729M et audio ~261M, reliés au backbone par des projecteurs légers.
MTP : tête Multi-Token Prediction à 3 couches pour accélérer l’inférence spéculative.
Déploiement : support documenté côté vLLM ; l’écosystème local autour de gguf, exl2, llama-cpp et ollama reste plus limité vu l’échelle du modèle.
Performances
Xiaomi décrit MiMo V2.5 comme une forte progression agentique par rapport à MiMo-V2-Pro.
Sur Claw-Eval (general subset), Xiaomi rapporte 62,3.
Le modèle est présenté comme au niveau de modèles fermés de pointe sur plusieurs tâches image, vidéo et agentiques multimodales.
Xiaomi indique qu’il égale Gemini 3 Pro sur la vidéo et Claude Sonnet 4.6 sur certains usages agentiques multimodaux, tout en restant plus efficace en coût que la version Pro.
MiMo V2.5 se distingue surtout par la combinaison 1M de contexte + multimodalité native + poids ouverts, davantage que par un positionnement purement local-first.
Licence & Disponibilité
Licence : MIT sur Hugging Face pour le dépôt MiMo-V2.5.
Disponibilité : Hugging Face, ModelScope, plateforme API/MiMo Studio de Xiaomi.
Poids ouverts : oui, contrairement à de nombreux modèles agentiques concurrents hébergés uniquement par API.
Inférence : Xiaomi et vLLM documentent un déploiement serveur ; le besoin matériel reste élevé (par ex. configuration vLLM documentée autour de 4× H200).