Modèle propriétaire Mixture-of-Experts de 01.AI, présenté en octobre 2024 comme successeur plus rapide, moins cher et mieux aligné que Yi-Large. Yi-Lightning a surtout marqué par son excellent rang Chatbot Arena et par une stratégie agressive de réduction des coûts d’inférence, avec un prix plancher autour de 0,99 RMB / million de tokens.
Spécifications
Version
Paramètres
Contexte
Usage
Yi-Lightning
~200B total (MoE, 32 experts / 4 actifs selon catalogues tiers)
16K tokens en API publique, 64K après extension long-contexte dans le rapport technique
Architecture rapportée : fine-grained expert segmentation, routage amélioré, équilibrage PEP et optimisation du KV-cache
Long contexte : le rapport technique décrit une extension jusqu’à 64K tokens par entraînement dédié ; les offres API publiques observées exposent surtout 16K
Serving : arbitrage explicite entre vitesse et qualité, le rapport signalant que certains scores API peuvent être légèrement inférieurs aux évaluations en déploiement local interne
Positionnement : modèle fermé optimisé pour la préférence utilisateur réelle plutôt que pour la seule maximisation des benchmarks académiques
Performances
Chatbot Arena : 6e mondial au 16 octobre 2024, score 1287, à égalité avec Grok-2-08-13 et au-dessus du GPT-4o initial selon le rapport technique
Sous-classements Arena : 2e en chinois, 3e en multi-turn et math, 4e en coding, hard prompts et longer query