Files
wiki/entities/qwen-3-5.md
T
2026-06-12 19:26:55 +02:00

3.5 KiB

title, created, updated, type, tags, sources, confidence, contested
title created updated type tags sources confidence contested
Qwen 3.5 2026-06-11 2026-06-11 entity
model
architecture
open-source
chinese
multimodal
moe
web research
high false

🐉 Qwen 3.5

Famille de modèles de fondation de Qwen / Alibaba, publiée à partir de février 2026. Qwen 3.5 combine une stratégie open-weight Apache 2.0 pour plusieurs tailles et une déclinaison hébergée plus orientée production. La série se distingue par une architecture hybride Gated DeltaNet + MoE, un support multimodal natif, une couverture de 201 langues et dialectes, et un fort accent sur les usages agentiques et le codage.

Spécifications

Version Paramètres Contexte Usage
Qwen3.5-397B-A17B 397B total / 17B actifs 262K natif, ~1M via YaRN Flagship open-weight, multimodal, agents
Qwen3.5-122B-A10B 122B total / 10B actifs 262K natif, ~1M via YaRN Raisonnement, code, agentique
Qwen3.5-35B-A3B 35B total / 3B actifs 262K natif, ~1M via YaRN Déploiement plus accessible, multimodal
Qwen3.5-27B 27B dense 262K natif, ~1M via YaRN Version dense généraliste
Qwen3.5-9B / 4B / 2B / 0.8B 9B à 0.8B 262K natif, ~1M via YaRN Petites variantes locales
Qwen3.5-Plus / Flash Variante hébergée jusqu’à 1M tokens API managée avec outils intégrés

Architecture

  • Type : architecture hybride Gated Delta Networks + sparse Mixture-of-Experts
  • Multimodal natif : entraînement à fusion précoce sur texte, image et vidéo
  • Langues : 201 langues et dialectes
  • Contexte : 262 144 tokens natifs sur les open weights, extensibles à environ 1 010 000 via YaRN ; les variantes hébergées offrent 1M par défaut
  • Exemple Qwen3.5-35B-A3B : 256 experts, 8 experts routés + 1 expert partagé, licence apache-2, distribution compatible Transformers, vLLM, SGLang, KTransformers
  • Distribution : poids officiels sur Hugging Face et ModelScope pour la série open-weight

Performances

  • Qwen3.5-35B-A3B : MMLU-Pro 85.3, GPQA Diamond 84.2, SWE-bench Verified 69.2, Terminal Bench 2 40.5, LiveCodeBench v6 74.6, TAU2-Bench 81.2, BrowseComp 61.0
  • Qwen3.5-122B-A10B : MMLU-Pro 86.7, GPQA Diamond 86.6, SWE-bench Verified 72.0, Terminal Bench 2 49.4, LiveCodeBench v6 78.9
  • Famille Qwen 3.5 : le dépôt officiel met en avant une amélioration simultanée sur le raisonnement, le code, les agents et la vision par rapport à la génération Qwen 3
  • Hosted variants : les fiches officielles indiquent que Qwen3.5-Flash correspond à une déclinaison production du 35B-A3B, avec 1M de contexte et des outils intégrés

Licence & Disponibilité

  • Licence : Apache 2.0 pour les modèles open-weight — apache-2
  • Poids : disponibles sur Hugging Face et ModelScope
  • API : Alibaba Cloud Model Studio pour les variantes hébergées (notamment Qwen3.5-Plus et Qwen3.5-Flash)
  • Usage local : déploiement possible avec ollama, llama-cpp, gguf et exl2 via l’écosystème et les conversions communautaires selon les variantes
  • Dates de sortie : 2026-02-16 pour le 397B-A17B initial ; 2026-02-24 pour 122B-A10B / 35B-A3B / 27B ; 2026-03-02 pour 9B / 4B / 2B / 0.8B

Pages Liées

qwen-3-7 deepseek-v4 glm-5 llama-4 ollama llama-cpp gguf exl2 apache-2