Qwen3.5 MoE 混合专家架构

3970 亿
总参数量 (397B)
↓ 仅激活
170 亿
激活参数 (A17B) ≈ 4.3%
路由器
Router
专家 1
专家 2
专家 3
专家 4
专家 5
专家 6
专家 7
专家 8
线性注意力
Gated Delta Networks,大幅降低长文本处理的计算开销
原生多模态预训练
文本 + 图像 + 视频混合训练,非后期拼接
推理效率提升
显存降低 60%,吞吐量提升最高 19 倍
不到 40% 的参数量,达到上一代万亿参数 Qwen3-Max 的性能水平