# 多模态AI
多模态AI能够理解和处理文本、图像、视频等多种形式的数据输入和输出。
今日更新:0
栏目文章数:5
11/17/2025 AI速递 | AI新进展:MiroThinker开源,Gemini与Grok功能升级
MiroMind团队发布开源bAgent模型MiroThinker v1.0,提出"深度交互Scaling"概念。谷歌为...

百度MuseSteamer深度解析:国产AI视频生成的新里程碑
百度商业研发团队推出的多模态生成大模型MuseSteamer,在VBench图生视频评测中取得全球第一,在中文音视频同步...

Qwen-VLo:阿里云多模态AI领域的重磅发布
阿里云近日发布最新多模态AI模型Qwen-VLo,其图像生成和编辑能力获用户高度评价,甚至超越GPT-4o。模型具备细节...

Google Gemini 2.5 Pro:从视频到交互式应用的多模态进化
Google发布Gemini 2.5 Pro版,在多模态理解和代码生成领域实现重大。该模型在编程能力上超越竞争对手Cl ...
