Files
2026-06-12 19:26:55 +02:00

3.1 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
MiMo V2.5 2026-06-11 2026-06-11 entity
model
architecture
multimodal
agent
web research
high false

🌌 MiMo V2.5

Modèle omnimodal open-source développé par Xiaomi MiMo — et non par MiniMax ni Moonshot. MiMo V2.5 vise les usages agentiques multimodaux avec un très long contexte, en combinant compréhension du texte, de limage, de la vidéo et de laudio dans une seule architecture MoE ouverte.

Spécifications

Version Paramètres totaux Paramètres actifs Contexte Précision Modalités
MiMo-V2.5-Base 310B 15B 256K FP8 (E4M3) mixed texte, image, vidéo, audio
MiMo-V2.5 310B 15B 1M FP8 (E4M3) mixed texte, image, vidéo, audio
  • Date de sortie : 22 avril 2026
  • Entraînement : 48T tokens
  • Positionnement : version généraliste/efficiente de la série V2.5, en dessous de MiMo-V2.5-Pro mais à coût inférieur
  • Open source : poids, tokenizer et model card publiés publiquement

Architecture

  • Éditeur : Xiaomi MiMo.
  • Type : Sparse MoE omnimodal.
  • Backbone : hérite de MiMo-V2-Flash.
  • Experts : 256 experts routés, top-8 actifs par token, pour 15B paramètres actifs.
  • Couches : 48 couches au total, dont 1 dense + 47 MoE.
  • Attention : hybride sliding-window + full attention avec ratio 5:1, optimisée pour le contexte long.
  • Encodeurs dédiés : vision ~729M et audio ~261M, reliés au backbone par des projecteurs légers.
  • MTP : tête Multi-Token Prediction à 3 couches pour accélérer linférence spéculative.
  • Déploiement : support documenté côté vLLM ; l’écosystème local autour de gguf, exl2, llama-cpp et ollama reste plus limité vu l’échelle du modèle.

Performances

  • Xiaomi décrit MiMo V2.5 comme une forte progression agentique par rapport à MiMo-V2-Pro.
  • Sur Claw-Eval (general subset), Xiaomi rapporte 62,3.
  • Le modèle est présenté comme au niveau de modèles fermés de pointe sur plusieurs tâches image, vidéo et agentiques multimodales.
  • Xiaomi indique quil égale Gemini 3 Pro sur la vidéo et Claude Sonnet 4.6 sur certains usages agentiques multimodaux, tout en restant plus efficace en coût que la version Pro.
  • MiMo V2.5 se distingue surtout par la combinaison 1M de contexte + multimodalité native + poids ouverts, davantage que par un positionnement purement local-first.

Licence & Disponibilité

  • Licence : MIT sur Hugging Face pour le dépôt MiMo-V2.5.
  • Disponibilité : Hugging Face, ModelScope, plateforme API/MiMo Studio de Xiaomi.
  • Poids ouverts : oui, contrairement à de nombreux modèles agentiques concurrents hébergés uniquement par API.
  • Inférence : Xiaomi et vLLM documentent un déploiement serveur ; le besoin matériel reste élevé (par ex. configuration vLLM documentée autour de 4× H200).

Pages Liées