🌌 MiMo V2.5

Modèle omnimodal open-source développé par Xiaomi MiMo — et non par MiniMax ni Moonshot. MiMo V2.5 vise les usages agentiques multimodaux avec un très long contexte, en combinant compréhension du texte, de l’image, de la vidéo et de l’audio dans une seule architecture MoE ouverte.

Spécifications

Version	Paramètres totaux	Paramètres actifs	Contexte	Précision	Modalités
MiMo-V2.5-Base	310B	15B	256K	FP8 (E4M3) mixed	texte, image, vidéo, audio
MiMo-V2.5	310B	15B	1M	FP8 (E4M3) mixed	texte, image, vidéo, audio

Date de sortie : 22 avril 2026
Entraînement : 48T tokens
Positionnement : version généraliste/efficiente de la série V2.5, en dessous de MiMo-V2.5-Pro mais à coût inférieur
Open source : poids, tokenizer et model card publiés publiquement

Architecture

Éditeur : Xiaomi MiMo.
Type : Sparse MoE omnimodal.
Backbone : hérite de MiMo-V2-Flash.
Experts : 256 experts routés, top-8 actifs par token, pour 15B paramètres actifs.
Couches : 48 couches au total, dont 1 dense + 47 MoE.
Attention : hybride sliding-window + full attention avec ratio 5:1, optimisée pour le contexte long.
Encodeurs dédiés : vision ~729M et audio ~261M, reliés au backbone par des projecteurs légers.
MTP : tête Multi-Token Prediction à 3 couches pour accélérer l’inférence spéculative.
Déploiement : support documenté côté vLLM ; l’écosystème local autour de gguf, exl2, llama-cpp et ollama reste plus limité vu l’échelle du modèle.

Performances

Xiaomi décrit MiMo V2.5 comme une forte progression agentique par rapport à MiMo-V2-Pro.
Sur Claw-Eval (general subset), Xiaomi rapporte 62,3.
Le modèle est présenté comme au niveau de modèles fermés de pointe sur plusieurs tâches image, vidéo et agentiques multimodales.
Xiaomi indique qu’il égale Gemini 3 Pro sur la vidéo et Claude Sonnet 4.6 sur certains usages agentiques multimodaux, tout en restant plus efficace en coût que la version Pro.
MiMo V2.5 se distingue surtout par la combinaison 1M de contexte + multimodalité native + poids ouverts, davantage que par un positionnement purement local-first.

Licence & Disponibilité

Licence : MIT sur Hugging Face pour le dépôt MiMo-V2.5.
Disponibilité : Hugging Face, ModelScope, plateforme API/MiMo Studio de Xiaomi.
Poids ouverts : oui, contrairement à de nombreux modèles agentiques concurrents hébergés uniquement par API.
Inférence : Xiaomi et vLLM documentent un déploiement serveur ; le besoin matériel reste élevé (par ex. configuration vLLM documentée autour de 4× H200).

3.1 KiB Raw Permalink Blame History Unescape Escape

🌌 MiMo V2.5

Spécifications

Architecture

Performances

Licence & Disponibilité

Pages Liées

3.1 KiB

Raw Permalink Blame History