返回资讯列表
Gemini OmniGoogle DeepMind多模态AI

谷歌推出Gemini Omni多模态生成模型

来源:blog.google

AI 快读

导语

2026年5月22日谷歌DeepMind发布了新一代多模态AI模型Gemini Omni,最先上线的Gemini Omni Flash已经能在Gemini app、Google Flow和YouTube Shorts用了。它能拿视频、图片、声音、文字当素材生成高清视频,还能用聊天的方式一步步改视频内容。

新闻正文

2026年5月22日,谷歌DeepMind正式推出新一代多模态生成模型Gemini Omni,首款落地产品Gemini Omni Flash已同步上线Gemini应用、Google Flow及YouTube Shorts平台。该模型实现了推理能力与生成能力的深度融合,支持以视频、图像、音频、文本为输入,生成符合现实逻辑的高质量视频内容。 此前谷歌曾推出Nano Banana功能,将Gemini的AI能力应用于图像生成与编辑,已帮助数百万用户修复老照片、将草图转化为设计图。此次推出的Gemini Omni则更进一步,从原生多模态架构出发,支持跨模态内容的生成与编辑,用户可通过自然语言指令,对视频进行多轮递进式修改,且能保持角色、物理规则、场景逻辑的一致性。 Gemini Omni的核心优势在于其精准的物理规则理解能力,以及对历史、科学、文化等知识库的融合应用。它能根据指令生成符合重力、动能、流体动力学等物理规则的场景,还能基于知识库实现有叙事性的内容创作,比如生成以特殊物品对应字母的科普视频。未来谷歌还将逐步拓展其支持的输出模态,覆盖图像、音频等更多类型。

关键信息

  • Gemini Omni是谷歌Gemini系列首次将推理能力与生成能力深度结合的模型,打破了此前多模态AI以单一模态输入输出为主的局限,实现跨模态输入的连贯视频生成与编辑。
  • 首款落地的Gemini Omni Flash率先支持视频输入输出,且能通过自然语言实现多轮递进式编辑,可保持角色、物理规则、场景逻辑的一致性,解决了传统视频编辑工具操作复杂的痛点。
  • 该模型具备更精准的物理规则理解能力,能结合历史、科学、文化等知识库生成符合现实逻辑且有叙事性的内容,而非仅靠模式匹配生成视觉素材,提升了AI生成内容的实用性与合理性。

对你的影响

这件事意味着什么

普通人无需掌握专业视频剪辑技能,就能通过日常对话式指令生成、修改个性化视频,比如将生活片段改成奇幻场景、制作知识科普动画,降低了视频创作的门槛;短视频创作者可大幅提升内容生产效率,节省学习专业软件的时间成本,还能借助AI实现传统剪辑难以完成的创意效果。

返回资讯列表