MiroMind团队发布开源bAgent模型MiroThinker v1.0,提出"深度交互Scaling"概念。谷歌为Gemini Enterprise开发多模态语音对话和Agent导入功能。Grok在图像视频生成技术上取得突破,并发布4.1 Beta版本。GMI宣布在台湾投资5亿美元建设AI数据中心。
— 此摘要由ai分析文章内容生成,仅供参考。
01. MiroMind团队发布开源bAgent模型MiroThinker
v1.0:深度交互Scaling引领AI进化
MiroMind团队发布开源bAgent模型MiroThinker
v1.0:深度交互Scaling引领AI进化

MiroMind 团队近日推出了一款全新的开源bAgent 模型:MiroThinker
v1.0。这款模型的最大创新在于提出了一个新概念:“深度交互
Scaling(Interactive Scaling)”。
传统的 AI 模型通常遵循“模型规模越大→性能越好”的线性增长规律,但 MiroThinker 突破了这一瓶颈,强调“模型与环境交互的深度和频次”才是智能增长的关键因素。
MiroThinker 支持与外部工具(如搜索引擎、Linux 沙箱、语音识别等)进行多次互动和推理,能够灵活使用这些工具来获取信息、完成任务。此外,它具备256K 上下文长度,能处理和记住大量信息(几十万字),单次可执行 600 次工具调用,使 AI 能够持续使用搜索、代码执行、计算、翻译等外部工具,并进行复杂推理和长时间任务。
什么是「深度交互 Scaling」?
简而言之,性能 ∝ 模型与环境的交互深度 × 反思频率。这意味着:
- 模型不是被动吸收知识,而是主动与环境互动;
- 每次试错与反思都会让模型在策略空间中“自我进化”;
- AI 越“动手”实践:越能纠正错误、提升推理质量。
就像人类通过“反复试错、动手实践”才能真正学会复杂的事情一样,例如学习烹饪时,单看食谱是远远不够的,必须亲自尝试、失败、修正、再尝试。对 AI 而言,多轮环境交互 + 反馈修正 = 智能进化的真正燃料。每次交互都是一次“学习”,智能就会越来越强。
因此,MiroThinker 将“上下文长度”和“交互轮数”都提升至极限,形成真正的“深度思考循环(Thinking Loop)”,从而实现更高效和智能的任务处理。
···

最新消息,谷歌正在为Gemini Enterprise开发一项名为Agentspace的实时功能。这项功能将提供一种多模态的语音体验,使用户能够与代理进行语音对话。
据透露,Agentspace不仅支持语音对话,还可能整合其他交互方式,如文本输入和图像识别,以提供更全面的用户体验。此外,Gemini Enterprise还将引入“为您推荐”个性化主页功能,进一步提升用户的使用体验。
这些新功能的推出,标志着谷歌在企业级应用领域的持续创新和技术进步。通过整合多模态技术和个性化推荐系统,谷歌旨在为企业用户提供更加智能、高效和便捷的服务。
···

谷歌正在为Gemini Enterprise开发一项新的Agent导入功能,允许用户将外部代理集成到自己的多代理工作流中。这一功能的引入将极大地增强Gemini Enterprise的灵活性和扩展性,使用户能够更好地管理和协调多个自动化任务。
此外,谷歌还推出了Agent评估工具,帮助用户测试和优化其代理的性能。同时,新版本还将支持定时执行功能,用户可以设置特定时间触发任务,提高工作效率。
此次更新还包括一系列新的连接器,进一步丰富了Gemini Enterprise的集成能力。这些新连接器将帮助企业更轻松地与各种第三方服务和系统进行交互,实现更加高效的工作流程。
通过这些新功能,谷歌旨在为用户提供一个更加全面和强大的企业级自动化解决方案,提升企业的运营效率和竞争力。
···

Kosmos是一款革命性的AI科学家工具,能够在一次运行中完成人类科学家大约6个月的科研工作量。Kosmos具备多种功能:
– 阅读并整合数千篇科学论文;
– 自动运行数据分析代码;
– 建立假设、验证实验、输出研究报告;
– 甚至复现或发现全新的科研成果。
超长上下文是其持续运行的关键,Kosmos可以在超过一千万个token的跨度上保持逻辑连贯,从数千篇论文和上万行分析代码中提取知识。
核心创新在于结构化世界模型(Structured World Models)。传统的AI科研工具采用线性思考方式,输入—分析—输出。而Kosmos引入了一个更接近人类科学思维的框架,即结构化世界模型。这意味着Kosmos可以在“记忆”中构建一张不断扩展的知识图谱,整合来自数百次自主推理轨迹的信息,形成一个关于特定科学目标的动态、可迭代世界模型。
例如,如果研究目标是“理解阿尔茨海默病中神经元退化机制”,Kosmos会:
- 检索相关论文(约1500篇)
- 从公开数据库中提取蛋白质组、遗传学和单细胞数据
- 自动运行超过42,000行分析代码
- 推理出关键分子路径,并生成带引用的报告
Kosmos的分析跨度可达上千万个token,远超现有LLM的“记忆极限”。这种技术不仅提高了科研效率,还为科学家提供了新的研究视角。
···

最新消息,谷歌正在研发一种多智能体系统,旨在通过类似锦标赛的评估机制帮助用户精炼研究想法。每次运行大约需要40分钟,可以为特定的研究主题生成100个详细的想法。
在Gemini Enterprise平台上,谷歌正在开发两种新的多智能体功能:”>创意生成 – “创建一个多智能体创新会话”;科学伙伴 – “与科学伙伴共同推动新科学发现”。
- 向科学伙伴说明你的研究计划、指向相关数据并设定评估标准。
- 一组智能体会根据可用数据为你生成研究想法。
- 智能体会根据你的标准对这些想法进行评估和排名,采用锦标赛式的方法。
这项技术不仅能够自动化科学研究过程,还为企业和个人提供了强大的工具,使他们能够更高效地进行创新。
这一进展标志着科研进入了一个新的阶段,将极大提升研究效率和创新能力。
···

最新消息:AI Studio平台新增了Gemini 3的提示工具。目前,准备工作正在进行中。
对于Gemini 3,默认设置为1.0时效果最佳。降低该值可能会影响推理性能。
这一更新旨在帮助开发者和研究人员更好地利用Gemini 3的强大功能,提升模型在各种任务中的表现。例如,在自然语言处理、图像识别和语音合成等领域,Gemini 3能够提供更准确的结果。
- **自然语言处理**:提高文本生成和理解能力。
- **图像识别**:增强图像分类和目标检测精度。
- **语音合成**:改善语音质量和自然度。
通过优化这些参数,用户可以更好地控制模型的行为,从而在实际应用中获得更好的效果。
更多详细信息,请参考官方文档。
···

近日,一段由Grok生成的动漫视频在网络上引起了广泛关注。视频中,人物手部与器具、食物之间的互动细节几乎看不出问题,只是动作稍显生硬。
这一技术的进步预示着使用AI创作影视级动画作品的时代即将到来。Grok Imagine能够生成类似1990年代经典动漫风格的烹饪场景,以ASMR风格呈现,令人感到放松和愉悦。一些看似简单的动作(如切胡萝卜、揉面团、打鸡蛋、搅拌或煎炒)在不久前还难以实现,但现在都能完美完成。
然而,该视频也引发了一些争议。部分观众给出了消极反馈,甚至咒骂,认为这是AI抄袭宫崎骏的作品,且人物缺乏灵魂。这引发了关于AI在艺术创作中的角色和局限性的讨论。
- **技术进步**:AI在动画制作中的应用越来越广泛,技术细节不断提升。
- **艺术争议**:一些观众认为AI生成的作品缺乏灵魂,质疑其艺术价值。
- **未来展望**:尽管存在争议,但AI在动画制作中的潜力巨大,未来可能会有更多的创新应用。
···

GMI近日宣布,将在在台湾投资5亿美元建设一座高密度的AI数据中心。该数据中心将配备7,000台NVIDIA Blackwell GB300 GPU,分布在96个机架中,预计每秒可处理近200万令牌。这一设施计划于2026年3月投入运营。

该数据中心预计将消耗约16兆瓦的电力。GMI还透露,他们已经规划在美国建设一个50兆瓦的新设施,以满足不断增长的需求。
关键特点包括:
- 96个机架
- 每秒处理近200万令牌
- 电力需求约为16兆瓦
- 计划于2026年3月上线
这些设施的建设不仅展示了GMI在AI基础设施方面的大力投资,也反映了全球对高性能计算资源日益增长的需求。随着AI技术的快速发展,这类数据中心将成为推动技术创新和应用的重要基础设施。
···

Grok在图像和视频生成领域取得了令人瞩目的进展。其最新的技术成果已经达到了令人惊艳的效果,不仅生成的图像和视频质量高,而且生成速度非常快。
这一技术突破的背后,是深度学习和人工智能算法的不断优化。Grok利用先进的神经网络模型,如Transformer和GAN(生成对抗网络),实现了高质量的图像和视频合成。
应用场景广泛,包括但不限于影视制作、广告创意、虚拟现实等。这些技术的应用能够极大地提高内容创作的效率,并为创作者提供更多的可能性。
视频来自@Diesol,展示了Grok的最新成果:
···

最新消息:Grok 4.1 Beta 版已正式在 Grok 网站上推出。此次更新中,Grok 4.1 Beta 作为一个独立选项与现有的 Grok 4 模式并列提供。
Grok 是一款强大的开发工具,旨在帮助开发者更高效地编写和调试代码。新版本的推出标志着 Grok 在功能和性能上的进一步提升。用户现在可以选择使用 Grok 4.1 Beta 进行测试,以体验最新的功能改进和优化。
主要特点包括:
- 增强的代码编辑器,支持更多编程语言
- 改进的调试工具,提供更详细的错误信息
- 优化的用户界面,提升用户体验
开发者们可以访问 这里 获取更多详细信息,并开始使用 Grok 4.1 Beta 进行测试。


评论功能已关闭。