
在2025年的Google I/O大会上,Google宣布了一系列新的AI模型、工具和订阅服务。以下是其中最引人注目的更新及其发布时间。
**生成式媒体**
- Veo 3是Google最先进的视频生成模型,能够创建带有音效甚至对话的视频,现已在美国对Google AI Ultra订阅者开放,并可通过Gemini应用和Flow访问,同时在Vertex AI上进行私密预览,未来几周将更广泛地推出。
- Veo 2增加了新的功能,如参考驱动的视频(保持一致的风格和角色)、摄像机控制以进行精确镜头调整、扩增纵横比以及对象添加/删除,部分新功能现已在Flow中可用,完整的功能将在Vertex AI中很快推出。
- Imagen 4生成更丰富、更详细和准确的图像,改进了文本渲染和提示结果,现已在Gemini应用、Whisk、Workspace(Slides, Docs, Vids)和Vertex AI中免费提供,即将推出更快版本。
- Flow是一款新的AI电影制作工具,允许用户通过自然语言和资产管理使用Veo、Imagen和Gemini创建电影片段,现在对美国的Google AI Pro和Ultra订阅者开放。
- Lyria 2是Google的音乐生成模型,现已在Vertex AI上线,支持高保真自适应音乐生成,而Lyria RealTime则作为实验性互动音乐模型通过Gemini API和Google AI Studio提供实时生成和表演生成音乐的功能。
Gemini应用
- Canvas新增一键“创建”按钮,可轻松将聊天内容转化为互动内容,如信息图、测验和播客,支持45种语言,Deep Research现在允许上传文件和图像,Google Drive和Gmail集成即将推出。
- Gemini Live的摄像头和屏幕共享功能现已在Android和iOS上免费提供(正在推出),并将很快与Google Calendar、Keep、Maps和Tasks等应用集成。
订阅服务
- Google AI Pro(每月19.99美元)已在美国和其他国家推出,但一些最新功能(如Flow或Gemini in Chrome)首先在美国推出,随后将更大范围推广。
- Google AI Ultra(每月249.99美元,新用户前三个月享五折优惠)提供最高的使用限制、最早访问高级模型(如Veo 3和Gemini 2.5 Pro Deep Think)、最高限制的Flow功能以及独家访问Agent Mode,还包括YouTube Premium和30TB存储空间,现已在美国推出,更多国家即将推出。
- 美国、英国、巴西、印度尼西亚和日本的大学生可免费获得一学年的Google AI Pro服务。
···

OpenAI对其Responses API进行了重大更新,新增了远程MCP服务器支持。这一功能允许用户通过云端进行更为高效的数据处理和管理。
此外,OpenAI还推出了实时流式图像生成和多轮编辑功能,费用为每100万文本输入令牌5.00美元,每100万图像输入令牌10.00美元,每100万图像输出令牌40.00美元。这将极大提升图像内容的生成效率和质量,适用于各种创意设计和内容制作场景。
Code Interpreter功能也得到了增强,每容器费用为0.03美元,能够帮助开发者更高效地运行代码并获取结果。
在文件搜索方面,OpenAI提升了其性能,每日每GB向量存储费用为0.10美元,每1000次工具调用费用为2.50美元,使用户能够更快速、准确地找到所需信息。
这些新功能现已在GPT-4o、GPT-4.1以及OpenAI的o系列模型中可用。此次更新还包括背景模式、推理摘要和加密推理项等功能,进一步增强了模型的安全性和实用性。
···

OpenAIDevs宣布在Responses API中引入了一系列新功能,包括支持远程MCP服务器、图像生成、代码解释器等。这些更新进一步增强了API的功能性和灵活性。
远程MCP服务器的支持使得开发者能够更轻松地管理和监控多台服务器,提高系统的可扩展性和稳定性。图像生成功能则为用户提供了生成高质量图像的能力,适用于多个领域,如广告设计、数据可视化等。
代码解释器的加入更是为开发者提供了强大的编程能力,可以直接在API响应中执行代码,简化开发流程,提高效率。
此外,这些新功能还支持多种应用场景,例如自动化测试、数据分析和机器学习模型的部署,为开发者提供了更多可能性。
此次更新不仅提升了Responses API的整体性能,还为开发者带来了更多的工具和资源,助力他们在各种项目中实现更高的创造力和生产力。
···

开发者们请注意,xAI API刚刚进行了重大升级。
新推出的Live Search功能,使得Grok能够实时搜索来自𝕏平台、互联网、热门新闻等来源的数据。这一功能的引入极大地提升了数据获取的时效性和准确性,为开发者提供了更多可能性。
Live Search API 目前正处于免费测试阶段,限时开放。这意味着开发者可以立即开始利用这一强大的工具进行开发和创新。
无论是构建智能助手、数据分析应用,还是实时信息检索系统,Live Search API 都能提供强大的支持。赶快访问 https://t.co/NzSc0vUg7i 开始构建您的项目吧!
此次升级不仅提升了API的功能,还为开发者带来了更多的应用场景。通过实时数据的接入,开发者可以更灵活地应对不断变化的需求,为用户提供更加精准和及时的服务。
···

我们很高兴宣布,Llama启动计划现已开放申请!
这个全新的倡议旨在赋能早期初创企业,帮助他们利用Llama平台进行创新,并构建生成式人工智能应用程序。通过参与该计划,初创企业将获得以下优势:
- 云服务费用报销,以减轻成本负担。
- 来自Llama专家的实践技术支持,帮助您充分利用Llama的各项功能。
- 加入一个充满活力的社区,并直接获取各种资源,助力您的初创企业蓬勃发展。
谁可以申请?任何已注册、位于美国境内且融资额不超过1000万美元的早期初创企业,同时至少拥有一名开发人员。
申请截止日期为2025年5月30日下午6点(太平洋时间)。
了解更多详情并立即申请!
更多详细信息,请访问:https://t.co/M107ooVWFa
···

我们很高兴地宣布,Devstral——一款专为编程助手设计的最先进(SOTA)开放模型正式发布。该模型由我们与@allhands_ai共同开发,旨在提升代码生成、调试和优化的效率。
Devstral采用了最新的深度学习技术,能够理解复杂的编程任务,并提供高质量的代码建议。它不仅支持多种编程语言,还具备强大的上下文理解和代码补全能力。
应用场景包括:
- 自动化代码生成
- 代码审查和质量检查
- 快速原型开发
- 开发者培训和教育
通过使用Devstral,开发者可以显著提高工作效率,减少编码错误,并在短时间内完成复杂项目。
了解更多详情,请访问:https://t.co/LwDJ04zapf
···

近日,Gemini 2.5 Flash Preview版本正式发布,此次更新的最大亮点是通过Live API实现了原生音频输出功能,使得对话交互更加流畅自然。
该版本支持超过30种不同的语音,用户可以依据需求选择不同风格和语言的声音,从而构建出更具直觉感和真实感的会话式人工智能(AI)代理及体验。无论是客户服务、教育辅导还是家庭助手应用,这项技术都将为用户提供更为丰富和个性化的互动方式。
借助于先进的文本转语音(TTS)技术,Gemini 2.5能够生成接近真人发声效果的合成语音,进一步提升了人机交流的质量与效率。对于开发者而言,这意味着他们现在拥有更多工具来打造无缝且吸引人的语音界面,推动智能对话系统向更加人性化方向发展。
···

🚀 Open Agent Platform (OAP) 是一个开源的、面向公民开发者的平台,用于构建、原型设计和部署智能代理。这个平台旨在让即使没有深厚编程知识的用户也能轻松创建和管理复杂的自动化工作流程。
通过OAP,用户可以:
- 🔧 通过Web界面构建代理,无需复杂的编码
- 🧠 连接到RAG服务器以实现更高效的信息检索
- 🔌 通过MCP扩展代理,集成外部工具
- 🤖 使用Agent Supervisor编排多代理工作流,进行复杂任务管理
无论你是业务分析师、产品经理还是开发者,OAP都能让你利用LangGraph代理的强大功能,而无需具备深厚的编程知识。
···

在管理包含650多个社区包的单一代码库时,我们遇到了许多挑战。为了解决这些问题,我们开发了一款开源构建管理工具——LlamaDev。
在这篇文章中,我们将分享从Poetry和Pants迁移到uv和LlamaDev的经验,实现了更快、更简单的开发流程:
- 测试运行速度提升20%
- 日志更加清晰,调试更容易
- 通过uv集成简化本地开发
- 对LlamaIndex贡献者来说,上手变得更加容易
LlamaDev不仅提高了我们的开发效率,还显著提升了社区参与度。通过提供更清晰的日志和简化的调试过程,开发者可以更快地定位并解决问题。此外,uv的集成使得本地开发环境的设置变得简单直观,大大减少了新贡献者的入门障碍。
我们相信,这些改进将使我们的社区更加活跃,并吸引更多开发者加入。
···

我们很高兴地宣布,LMArena已成功筹集了1亿美元的种子资金,以支持我们的平台和继续进行可靠人工智能的研究。本轮融资由知名投资机构和加州大学投资公司(UC Investments)领投,我们非常荣幸能够得到这些对科学和使命充满信心的投资人的支持。
LMArena最初是加州大学伯克利分校的一个学术项目,现在已发展成为一家估值达6亿美元的初创公司。我们的目标是建立一个中立、开放且社区驱动的平台,帮助全球理解并改进AI模型在真实用户查询中的性能表现。
此外,下周我们将有重大消息发布!
为了更好地满足用户需求,我们将在近期重新推出LMArena,带来全新的界面设计,该设计完全基于社区反馈从零开始构建。更多信息请参见链接。
通过此次融资,LMArena将进一步加强技术研发,并拓展其在教育、医疗等领域的应用,为用户提供更加精准、高效的服务。

