阿里巴巴开源稀疏大模型!仅以30亿激活参数即可重塑智能体编程

广告

阿里巴巴最近开源的,无疑是科技界关注的焦点。它以仅30亿激活参数的稀疏架构,在智能体编程领域引起了巨大轰动。这一创新架构使模型能够“以小博大”,为开发者提供了一个轻巧、高效且功能强大的新选择。

这一模型的核心在于其混合专家(MoE)架构,与传统模型在推理时需要调动全部参数不同,MoE架构宛如一个庞大的“专家库”,每次仅激活最相关的少数专家来解决问题。

总参数量:350亿 (35B)
激活参数量:仅30亿 (3B)

阿里巴巴开源稀疏大模型!仅以30亿激活参数即可重塑智能体编程

这意味着该模型在运行时仅需消耗与一个30亿参数级别的小模型相当的计算资源,却能调用高达350亿参数的知识储备和能力,实现了“大模型的能力,小模型的速度”。

Qwen3.6-35B-A3B在智能体编程领域的表现尤为出色,其性能不仅大幅超越了前代模型,甚至可以与参数规模大得多的稠密模型相媲美。以下是它在几个关键编程基准测试中的表现:

Terminal-Bench:2.05(Qwen3.6-35B-A3B),1.54(Qwen3.5-27B,稠密模型)
SWE-bench Verified:73.4(Qwen3.6-35B-A3B),75.0(Qwen3.5-27B)
NL2Repo:29.4(Qwen3.6-35B-A3B),27.3(Qwen3.5-27B)

除了强大的编程能力,该模型还具备多项关键特性:

原生多模态能力:模型内置视觉编码器,在视觉问答、空间智能等多模态任务上表现出色,部分指标已达到与Claude Sonnet 4.5相当的水平。
极低的部署门槛:得益于其轻量化设计,该模型对硬件要求非常友好,仅需约23GB内存即可在本地流畅运行,大大降低了企业私有化部署和个人开发者使用的硬件成本。
完全开源与便捷调用:模型采用Apache 2.0协议开源,允许商业使用。开发者可以通过多种方式使用,包括在Hugging Face和ModelScope平台下载权重进行本地部署,通过阿里云百炼平台以qwen3.6-flash的名称调用API,或在Qwen Studio官网直接进行交互体验。
广泛的生态支持:Qwen3.6-35B-A3B已与多个平台和工具集成,为开发者提供了丰富的资源和便捷的开发环境,加速了创新应用的开发与落地。

总之,Qwen3.6-35B-A3B模型的出现,不仅推动了人工智能技术的进步,也为开发者带来了更多的可能性和机遇。