Qwen3.5 MoE 混合专家架构

3970 亿

总参数量 (397B)

↓ 仅激活

170 亿

激活参数 (A17B) ≈ 4.3%

路由器
Router

专家 1

专家 2

专家 3

专家 4

专家 5

专家 6

专家 7

专家 8

线性注意力

Gated Delta Networks，大幅降低长文本处理的计算开销

原生多模态预训练

文本 + 图像 + 视频混合训练，非后期拼接

推理效率提升

显存降低 60%，吞吐量提升最高 19 倍

不到 40% 的参数量，达到上一代万亿参数 Qwen3-Max 的性能水平