谷歌发布Gemini 3系列模型,其中Gemini 3 Pro在多项基准测试中表现卓越,HLE测试得分37.5%,ARC-AGI-2测试得分31.1%。Gemini 3 Deep Think性能更优,HLE测试达41%,ARC-AGI-2测试达45.1%。同时,Grok 4.1免费发布,Claude模型扩展至Azure及Microsoft 365平台。
— 此摘要由ai分析文章内容生成,仅供参考。

近日,Gemini 3 Pro的性能基准数据意外泄露,引发了业内的广泛关注。

根据泄露的数据,Gemini 3 Pro在多个基准测试中表现出色:在HLE测试中得分为37.5%,在ARC-AGI-2测试中得分为31.1%,在LiveCodeBench Pro测试中得分为2439 Elons,在Tau-Bench测试中得分为85.4%,在SimpleQA Verified测试中得分为72.1%。这一系列优异的成绩表明,Gemini 3 Pro在多方面已经达到了业界领先水平。
尽管在SWE-Bench Verified测试中表现略逊一筹,但整体来看,Gemini 3 Pro依然在大部分关键测试中取得了最高分,这标志着其在人工智能领域的突破性进展。
Gemini 3 Pro的这些出色表现预示着其在未来人工智能应用中的巨大潜力。无论是自然语言处理、代码生成还是复杂问题解决,Gemini 3 Pro都展现出了卓越的能力,有望在多个领域带来革命性的变化。
···

谷歌发布了其最新的AI模型Gemini 3,这是他们迄今为止最智能的模型,结合了最先进的推理能力、多模态理解和强大的自主行动能力。
Gemini 3 Pro在LMArena排行榜上以1501 Elo的成绩位居榜首,在没有工具的情况下,它在《人类最后的考试》中得分率为37.5%,在GPQA Diamond测试中得分为91.9%,在MathArena Apex测试中得分为23.4%,在SimpleQA Verified测试中的事实准确性得分为72.1%。这些成绩展示了Gemini 3在多个领域的卓越表现。
可用性与定价
- Gemini 3现已在Gemini应用程序(选择“思考”模式)、Google搜索AI模式(面向美国Google AI Pro和Ultra订阅用户,即将扩展到所有美国用户)、Vertex AI、Google AI Studio(免费层和速率限制)、Gemini CLI(面向Ultra订阅用户和付费API密钥持有者,其他人需等待名单)以及Android Studio Otter中提供。
- 定价为每百万输入令牌2美元,每百万输出令牌12美元,适用于少于200,000令牌的提示词。Google AI Studio中的免费访问受速率限制。
新功能与性能
- Gemini 3的Deep Think模式在《人类最后的考试》中得分率为41.0%,在GPQA Diamond测试中得分为93.8%,在ARC-AGI-2测试中得分为45.1%。该模式将在在未来几周内向Google AI Ultra订阅用户推出,经过安全评估后。
- 新的功能包括动态视图和视觉布局实验生成界面,Gemini Agent可用于多步骤任务,仅限美国Ultra订阅用户使用,以及重新设计的应用程序,具有My Stuff文件夹,方便查找创建的内容。
- Gemini 3 Pro在WebDev Arena上的得分为1487 Elo,在Terminal-Bench 2.0上的得分为54.2%,在SWE-bench Verified编码任务上的得分为76.2%。集成可在Cursor、GitHub、JetBrains、Manus、Replit、Cline和Google Antigravity中获得,后者在MacOS、Windows和Linux上提供免费公共预览版。
企业客户可以通过Gemini Enterprise和Vertex AI访问这些功能,符合资格的美国大学生可获得一年的Google AI Pro免费试用,而Google AI Pro和Ultra订阅用户将享有更高的使用限额。
···

近日,Gemini 3 Pro的基准测试结果公开,显示其在多项关键任务中的表现远超预期。根据最新发布的数据,在Humanity’s Last Exam基准测试中,Gemini 3 Pro得分达到37.5%,而在ARC-AGI-2测试中则取得了31.1%的成绩。这些结果表明,Gemini 3 Pro在当前的人工智能领域中处于领先地位。

与此同时,该模型的详细文档也被意外泄露,进一步引发了业界的关注。Gemini 3 Pro的出色表现不仅体现在理论测试上,还在于其广泛的应用场景,包括自然语言处理、图像识别以及复杂决策支持等。

- Humanity’s Last Exam: 37.5%
- ARC-AGI-2: 31.1%
这一系列突破性成果将为人工智能技术的发展带来新的动力。
···

近日,Grok 4.1 版本正式发布,并且对所有用户免费开放。

新版 Grok 在多个方面进行了显著改进:
- 在 LMArena 排行榜上荣获第一名,Elo 分数达到 1483。
- 提升了情感智能,能够更好地理解和处理情感相关的任务。
- 增强了创意写作能力,为用户提供更丰富和多样的创作选项。
- 减少了幻觉现象,提高了生成内容的准确性和可靠性。
此外,Grok 4.1 支持多种平台,包括 Web、X(前身为 Twitter)、iOS 和 Android,用户可以随时随地访问和使用。

主要特点:
- 高情感智能,适用于情感分析和客户服务。
- 强大的创意写作辅助,适合作家和内容创作者。
- 更高的准确性和可靠性,减少错误输出。
- 跨平台支持,方便用户在不同设备上使用。
此次更新不仅提升了用户体验,还进一步巩固了 Grok 在人工智能领域的领先地位。
···

谷歌AI开发者团队推出了最新一代智能模型Gemini 3 Pro,该模型在推理能力和多模态理解方面达到了业界领先水平。Gemini 3 Pro不仅具备强大的代理功能(agentic capabilities),还拥有独特的氛围编码能力(vibe coding),能够更好地理解和处理复杂的信息。
这些先进的特性使得Gemini 3 Pro在多个应用场景中表现出色,例如自然语言处理、图像识别以及跨模态任务。对于开发者来说,Gemini 3 Pro提供了丰富的API接口和开发工具,便于快速集成到现有系统中。
此外,Gemini 3 Pro还支持多种编程语言和框架,为不同背景的开发者提供了极大的灵活性。通过使用Gemini 3 Pro,开发者可以构建更加智能和高效的解决方案,推动人工智能技术的发展。
···

最新消息显示,Gemini 3 目前已成为最佳的 Vibe 编码和代理编码模型。这款工具的强大之处在于其能够构建几乎任何类型的项目,无论是复杂的应用程序还是高度互动的虚拟环境。
特别值得一提的是,Gemini 3 在创建可玩的科幻世界方面表现尤为出色。通过使用先进的着色器技术,开发者可以实现逼真的视觉效果,营造出沉浸式的体验。一个具体的示例是,用户可以通过以下链接探索一个由 Gemini 3 构建的科幻世界:
https://t.co/T55LofFGN3
关键特点包括:
- 强大的 Vibe 编码支持
- 高效的 Agentic 编码模型
- 丰富的着色器库
- 适用于多种开发场景
这些特性使得 Gemini 3 成为开发者的首选工具,无论是游戏开发、虚拟现实还是其他需要高性能图形处理的项目。
···

令人惊叹的是,谷歌的最新人工智能模型Gemini 3 Deep Think在多项基准测试中超越了其前代产品Gemini 3 Pro。
具体来说,在人类最后的考试(Humanity’s Last Exam)中,Deep Think的表现比Pro版本高出41%;在ARC-AGI-2测试中,这一差距更是达到了45.1%。这些数据表明,Deep Think在理解和解决复杂问题的能力上有了显著提升。
谷歌通过Deep Think重新确立了其在人工智能领域的领先地位。这可能标志着一个新时代的到来,特别是在自然语言处理和机器学习方面。面对这一挑战,OpenAI是否能够迎头赶上,成为业界关注的焦点。
此次突破不仅展示了谷歌在技术研发上的强大实力,也为未来的人工智能应用提供了新的可能性。随着技术的不断进步,我们有望看到更多创新的应用场景,从智能助手到复杂的决策支持系统。
···

最新消息:Gemini 3 Deep Think在HLE(Humanity’s Last Exam)测试中获得了41%的得分,在ARC_AGI-2测试中获得了45.1%的得分。
这些结果表明,Gemini 3 Deep Think在多项基准测试中的表现优于其前身Gemini 3 Pro。HLE测试主要评估模型在处理复杂问题和推理任务方面的能力,而ARC_AGI-2则侧重于模型的通用人工智能能力。
Gemini 3 Deep Think不仅在这些测试中表现出色,还在GPQA Diamond测试中取得了显著进步。这些成就展示了其在自然语言处理、推理和通用人工智能领域的强大潜力。
这一突破对于推动人工智能技术的发展具有重要意义,特别是在需要高级推理和理解能力的应用场景中,如智能助手、自动问答系统和复杂数据分析。
···

Gemini 3 Era已正式开启,这一里程碑标志着智能技术的新篇章。

Gemini 3 Pro作为全球最智能的模型之一,将在多个平台和应用中广泛应用,包括Google及其第三方产品和服务。该模型在多个基准测试中表现出色,特别是在AI Studio、Gemini API 和 Gemini App等产品中展现了其强大的功能。
主要特点:
- 卓越的性能:Gemini 3 Pro在多项基准测试中表现出色。
- 广泛的应用场景:支持各种产品和服务,如AI Studio、Gemini API和Gemini App。
- 无缝集成:可以轻松集成到现有系统中,提升效率和用户体验。
Gemini 3 Pro的发布将为开发者和用户提供前所未有的创新能力,助力他们在各个领域实现突破。
···
Anthropic公司宣布将Claude模型全面扩展至多个平台,进一步推动其在企业级应用中的普及。
Azure客户现在可以访问Claude Sonnet 4.5、Haiku 4.5和Opus 4.1版本。开发者可以通过Claude Code在Foundry中使用这些模型,实现更高效的应用开发。
重要的是,Claude模型还被集成到Microsoft 365 Copilot和Excel的Agent Mode中,为用户提供更智能的办公体验。
Anthropic与NVIDIA和微软达成合作,使得Claude成为唯一一个在三大主流云服务(即AWS、Google Cloud和Azure)上均可使用的前沿模型。
此外,NVIDIA和微软将分别投资高达100亿美元和50亿美元于Anthropic,以支持其在人工智能领域的持续创新和发展。
这些举措不仅提升了Claude模型的可访问性和实用性,还进一步巩固了Anthropic在人工智能领域的领先地位。


评论功能已关闭。