
Qwen团队近日发布了其最新大语言模型Qwen3,包含两个MoE(Mixture of Experts)模型和六个密集模型,参数规模从0.6B到235B不等。旗舰模型Qwen3-235B-A22B在编码、数学及通用能力等多项基准测试中表现优异,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比具有竞争力。

该模型在36T令牌上训练,涵盖119种语言,数据来源包括PDF提取和合成数据。Qwen3还引入了思考模式和非思考模式,提升了代理能力和编码能力,并支持MCP(Model Control Protocol)。训练管道类似于DeepSeek R1,并且提供了小型蒸馏模型,如Qwen3-4B,其性能甚至可以媲美Qwen2.5-72B-Instruct,还有更小的Qwen3-0.6B模型也表现出色。

所有模型均采用Apache 2.0许可证开源,用户可以在Qwen Chat Web和APP中体验这些模型,并访问GitHub、Hugging Face和ModelScope等平台获取更多信息。
- Qwen3-30B-A3B及其预训练版本现已在Hugging Face、ModelScope和Kaggle等多个平台上可用。
- 推荐使用SGLang和vLLM框架进行部署。
- 本地使用建议工具包括Ollama、LMStudio、MLX、llama.cpp和KTransformers。
这些选项确保用户可以轻松地将Qwen3集成到研究、开发或生产环境中。
···

近日,Qwen 3正式发布,这款拥有235B参数的混合专家系统(MoE)模型在激活时仅有22B参数,展现出卓越的性能。
Qwen 3在多项基准测试中表现突出,成功超越了R1、Grok和O1等知名模型。这不仅标志着Qwen系列在自然语言处理领域的重大突破,也彰显了其高效能和低资源消耗的优势。
技术亮点:
- 混合专家系统(MoE)架构,实现大规模模型的高效运行。
- 22B激活参数有效降低计算资源需求。
此外,Qwen 3采用了开放的Apache 2.0许可证,允许开发者自由使用和修改代码,极大地促进了开源社区的发展和技术创新。
这一发布对于学术界和工业界都具有重要意义,有望推动更多基于Qwen 3的应用开发,包括但不限于智能对话、文本生成、机器翻译等领域。
···

近日,备受期待的Qwen 3模型正式发布,其在多项基准测试中的表现令人印象深刻。
作为新一代的大规模语言模型,Qwen 3在自然语言处理、文本生成和理解方面取得了显著的进步。该模型不仅在技术上实现了突破,还在实际应用中展现出强大的潜力。
Qwen 3 的发布引起了业界广泛的关注,其合作伙伴Ollama已迅速跟进,提供了对新模型的支持。用户现在可以通过以下步骤在Llama Index中使用Qwen 3:
- 安装Llama Index Ollama插件:
pip install llama-index-llms-ollama - 访问官方文档:详细指南
Qwen 3的推出标志着语言模型技术的进一步发展,无论是学术研究还是商业应用,都将受益于这一强大工具。
···

近日,Qwen发布了六款全新的Qwen 3系列模型,其中旗舰型号Qwen3-235B-A22B在多项基准测试中表现出色。

这批新模型不仅在编码和多任务处理(MCP)方面提供了更好的支持,还在数学、通用能力等多个领域与当前顶级模型如DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等进行了对比,取得了显著的竞争优势。特别值得一提的是,小型MoE模型Qwen3-30B-A3B在激活参数仅为QwQ-32B的十分之一的情况下,仍能超越其性能;而更小的Qwen3-4B甚至能与Qwen2.5-72B-Instruct相媲美。

- Qwen3-235B-A22B:旗舰模型,性能卓越,适用于复杂任务。
- Qwen3-30B-A3B:小型MoE模型,参数效率高。
- Qwen3-4B:轻量级模型,性价比高。
为了方便用户试用,这些模型已上线Qwen Chat Web及APP,并可在GitHub、Hugging Face、ModelScope等平台下载。对于部署,推荐使用SGLang和vLLM框架,本地使用则建议采用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。这使得无论是在研究、开发还是生产环境中,用户都能轻松将Qwen3集成到其工作流程中。
···

2025年4月29日,阿里巴巴正式发布了新一代大语言模型——通义千问Qwen3(以下简称“千问3”)。作为阿里巴巴通义系列的最新成员,千问3在技术架构、性能指标及部署成本上均有所突破,尤其在Agent能力和模型上下文协议(MCP)支持方面表现突出。

千问3共提供了8个模型版本,覆盖了从轻量级到超大规模的广泛需求。其中,MoE(混合专家)模型包括30B(激活参数3B)与235B(激活参数22B)两款;Dense(稠密)模型则提供0.6B、1.7B、4B、8B、14B、32B多种规模。旗舰型号——千问3-235B-A22B在多个国际基准测试中表现出色,与DeepSeek-R1、OpenAI-o1、Grok-3等国际一线模型不相上下,甚至在部分任务上稍有领先。
千问3的显著特性之一是其在Agent能力上的明显提升:
- 在专门评估Agent任务能力的BFCL基准测试中,千问3达到70.8分,超过Gemini 2.5 Pro、OpenAI-o1等高端模型。
- 原生支持工具调用(Function Calling)特性,配合Qwen-Agent框架,提供预封装的工具调用模板和解析器,大幅降低开发门槛,适合快速开发基于AI Agent的应用场景。
此外,千问3还支持一种名为模型上下文协议(MCP)的特性:
- MCP使模型能够动态感知并管理上下文信息,在执行多轮对话或复杂任务时,可显著提高上下文感知的稳定性与响应准确性。
- 开发者能够明确指定模型的“思考预算”,实现精准控制,灵活满足不同场景下的算力成本与响应质量需求。
- 提出的“快思考”与“慢思考”混合推理模式,通过MCP进行上下文动态切换,使得模型对简单请求可快速响应,对复杂任务则自动采用深入的多步骤推理模式。
千问3在部署方面也颇具吸引力:旗舰级235B模型仅需4张H20 GPU即可部署,显存占用仅为同性能级别模型的1/3,显著降低了企业用户的部署成本门槛。小尺寸模型如4B、8B则可轻松部署到手机、PC、汽车等端侧设备,适合于各种嵌入式与边缘计算场景。
值得一提的是,千问3支持119种语言和方言,包括中文(普通话、粤语)、英语、日语、韩语以及多种东南亚、欧洲、中东语言,为国际化应用与全球市场拓展奠定了基础。
千问3系列模型沿用Apache 2.0协议开源,全球开发者均可自由下载、修改、商用。提供的平台包括Hugging Face、ModelScope、Kaggle等。阿里巴巴旗下的魔搭社区与阿里云百炼平台也同步提供相关API与部署支持。
···

在短短两年多的时间里,Llama 已经突破了10亿次下载,确立了其在人工智能开源生态系统中的领导地位。
在 LlamaCon 2025 的主题演讲中,Llama 宣布了一系列重要更新和发展计划:
- Llama API 预览版:结合封闭模型 API 的最佳特性与开源的灵活性,为开发者提供更强大的工具。Llama API 支持多种编程语言,并提供丰富的文档和示例代码,帮助开发者快速上手。
- AI Defender Program:推出先进的工具,用于检测和预防 AI 生成的威胁。该计划将利用最新的机器学习技术,帮助企业保护其数据安全和隐私。
- Llama Impact Grant 获奖者公布:介绍那些通过开源 AI 技术推动变革的获奖者。这些项目涵盖了从医疗健康到环境保护等多个领域,展示了开源 AI 在解决实际问题方面的巨大潜力。
···

中国科技巨头阿里巴巴近期发布了最新一代大语言模型Qwen 3,这款模型在多个方面展现了卓越的性能。

Qwen 3在多项测试中表现优异,尤其是在推理能力和记忆能力上远超目前流行的Llama模型。具体来说,Qwen 3拥有8个完全开源的模型版本,并且全部采用Apache 2.0许可证,这为开发者和研究者提供了极大的灵活性和便利性。
- 更强的推理能力:Qwen 3在处理复杂任务时表现出色,能够轻松解决各种难题。
- 改进的记忆机制:相比Llama,Qwen 3具备更好的上下文理解和长文本记忆能力。
- 内置混合推理:这种独特的设计使得Qwen 3在处理多模态数据时更加高效。
此外,Qwen 3还在实际应用中展示了其强大的性能。例如,在自然语言处理、代码生成以及对话系统等领域,Qwen 3都表现出了显著的优势。这些进步不仅提升了模型的整体性能,还为未来的人工智能技术发展奠定了坚实的基础。
总体来看,Qwen 3的发布标志着中国在大语言模型领域的又一重大突破,其性能优势已经非常明显。
···
近日,一款名为8B的多语言处理模型引起了广泛关注。这款模型不仅支持多种语言,还具备代码处理和代理功能,并且采用Apache许可证发布,这意味着开发者可以自由使用和修改。
值得注意的是,8B模型与流行的Transformer架构以及Llama.cpp库兼容,为开发者提供了强大的灵活性和扩展性。此外,由于其大小适中,该模型能够在大多数笔记本电脑和MacBook上运行,无需高性能硬件支持。
在实际应用中,8B模型可用于自然语言处理任务,如文本生成、翻译和对话系统等。同时,它还能够处理代码相关任务,为编程辅助工具提供支持。对于需要多语言支持和代码处理能力的项目来说,8B是一个非常有吸引力的选择。
···

阿里巴巴正式发布了最新一代的Qwen3系列模型,该系列包括8个开放权重的模型,涵盖了6个密集型模型(0.6B, 1.7B, 4B, 8B, 14B, 32B)和2个混合专家系统模型(30B-A3B, 235B-A22B)。这些模型在编码、数学和通用任务上表现出色,能够与DeepSeek-R1和o1等顶级模型竞争。
Qwen3系列模型预训练了约36万亿个token,并支持119种语言和方言,具有增强的自主能力。用户可以在思考模式和非思考模式之间切换,以适应不同的应用场景。
关键特性:
- 支持119种语言和方言
- 预训练数据规模为36万亿个token
- 提供两种模式:思考模式和非思考模式
- 基于Apache 2.0许可证开源
Qwen3系列模型现已完全支持BentoML和OpenLLM框架,用户可以轻松地在BentoCloud上部署这些模型。此外,BentoML和vLLM提供了便捷的服务方式,进一步简化了模型的使用和管理。
通过以下链接,你可以快速体验Qwen3模型的强大功能:
235B-A22B: https://t.co/84C77s9lbg
8B: https://t.co/u42LpNqNuX
更多详情请访问: https://t.co/YeawhsoREX
更多关于OpenLLM的信息,请访问: https://t.co/PVhLM89LSc
···
在最近的LlamaCon大会上,Meta公司宣布了一系列重大的AI安全和防护工具更新,旨在通过开源工具和技术提升人工智能系统的安全性。
这些更新包括:
- Llama Guard 4:一种可定制的安全保护工具,支持跨模态的文本和图像理解保护。
- Llama Firewall:一个安全护栏工具,能够检测并防止诸如提示注入、不安全代码和风险LLM插件交互等威胁。
- 两个新版本的Llama Prompt Guard:
- Prompt Guard 2 86M:改进了对越狱和提示注入检测的性能。
- Prompt Guard 2 22M:体积更小、速度更快,减少延迟和计算成本,同时保持较高的性能。
此外,Meta还投资开发了新的AI赋能解决方案,以帮助社区增强其安全系统。其中,CyberSecEval 4是最新的一套针对AI系统的网络安全基准测试工具。
另外,Llama Defender Program将为可信合作伙伴提供多种开放、早期访问和封闭的AI解决方案,以应对不同的安全需求。
更多关于这些开源保护工具及其如何推进AI隐私和安全的信息,请访问:LlamaCon官方网站

