阿里巴巴开源稀疏大模型！仅以30亿激活参数即可重塑智能体编程

XW996
寻味观察
2小时前
340热度
0评论

阿里巴巴最近开源的，无疑是科技界关注的焦点。它以仅30亿激活参数的稀疏架构，在智能体编程领域引起了巨大轰动。这一创新架构使模型能够“以小博大”，为开发者提供了一个轻巧、高效且功能强大的新选择。

这一模型的核心在于其混合专家（MoE）架构，与传统模型在推理时需要调动全部参数不同，MoE架构宛如一个庞大的“专家库”，每次仅激活最相关的少数专家来解决问题。

总参数量：350亿 (35B)
激活参数量：仅30亿 (3B)

阿里巴巴开源稀疏大模型！仅以30亿激活参数即可重塑智能体编程

这意味着该模型在运行时仅需消耗与一个30亿参数级别的小模型相当的计算资源，却能调用高达350亿参数的知识储备和能力，实现了“大模型的能力，小模型的速度”。

Qwen3.6-35B-A3B在智能体编程领域的表现尤为出色，其性能不仅大幅超越了前代模型，甚至可以与参数规模大得多的稠密模型相媲美。以下是它在几个关键编程基准测试中的表现：

Terminal-Bench：2.05（Qwen3.6-35B-A3B），1.54（Qwen3.5-27B，稠密模型）
SWE-bench Verified：73.4（Qwen3.6-35B-A3B），75.0（Qwen3.5-27B）
NL2Repo：29.4（Qwen3.6-35B-A3B），27.3（Qwen3.5-27B）

除了强大的编程能力，该模型还具备多项关键特性：

原生多模态能力：模型内置视觉编码器，在视觉问答、空间智能等多模态任务上表现出色，部分指标已达到与Claude Sonnet 4.5相当的水平。
极低的部署门槛：得益于其轻量化设计，该模型对硬件要求非常友好，仅需约23GB内存即可在本地流畅运行，大大降低了企业私有化部署和个人开发者使用的硬件成本。
完全开源与便捷调用：模型采用Apache 2.0协议开源，允许商业使用。开发者可以通过多种方式使用，包括在Hugging Face和ModelScope平台下载权重进行本地部署，通过阿里云百炼平台以qwen3.6-flash的名称调用API，或在Qwen Studio官网直接进行交互体验。
广泛的生态支持：Qwen3.6-35B-A3B已与多个平台和工具集成，为开发者提供了丰富的资源和便捷的开发环境，加速了创新应用的开发与落地。

总之，Qwen3.6-35B-A3B模型的出现，不仅推动了人工智能技术的进步，也为开发者带来了更多的可能性和机遇。

寻味996

阿里巴巴开源稀疏大模型！仅以30亿激活参数即可重塑智能体编程

登录后参与评论