Gemini OmniGoogle DeepMind多模态AI

谷歌推出Gemini Omni多模态生成模型

2026年5月22日来源：blog.google

AI 快读

导语

2026年5月22日谷歌DeepMind发布了新一代多模态AI模型Gemini Omni，最先上线的Gemini Omni Flash已经能在Gemini app、Google Flow和YouTube Shorts用了。它能拿视频、图片、声音、文字当素材生成高清视频，还能用聊天的方式一步步改视频内容。

新闻正文

2026年5月22日，谷歌DeepMind正式推出新一代多模态生成模型Gemini Omni，首款落地产品Gemini Omni Flash已同步上线Gemini应用、Google Flow及YouTube Shorts平台。该模型实现了推理能力与生成能力的深度融合，支持以视频、图像、音频、文本为输入，生成符合现实逻辑的高质量视频内容。此前谷歌曾推出Nano Banana功能，将Gemini的AI能力应用于图像生成与编辑，已帮助数百万用户修复老照片、将草图转化为设计图。此次推出的Gemini Omni则更进一步，从原生多模态架构出发，支持跨模态内容的生成与编辑，用户可通过自然语言指令，对视频进行多轮递进式修改，且能保持角色、物理规则、场景逻辑的一致性。 Gemini Omni的核心优势在于其精准的物理规则理解能力，以及对历史、科学、文化等知识库的融合应用。它能根据指令生成符合重力、动能、流体动力学等物理规则的场景，还能基于知识库实现有叙事性的内容创作，比如生成以特殊物品对应字母的科普视频。未来谷歌还将逐步拓展其支持的输出模态，覆盖图像、音频等更多类型。

关键信息

Gemini Omni是谷歌Gemini系列首次将推理能力与生成能力深度结合的模型，打破了此前多模态AI以单一模态输入输出为主的局限，实现跨模态输入的连贯视频生成与编辑。
首款落地的Gemini Omni Flash率先支持视频输入输出，且能通过自然语言实现多轮递进式编辑，可保持角色、物理规则、场景逻辑的一致性，解决了传统视频编辑工具操作复杂的痛点。
该模型具备更精准的物理规则理解能力，能结合历史、科学、文化等知识库生成符合现实逻辑且有叙事性的内容，而非仅靠模式匹配生成视觉素材，提升了AI生成内容的实用性与合理性。

对你的影响

这件事意味着什么

普通人无需掌握专业视频剪辑技能，就能通过日常对话式指令生成、修改个性化视频，比如将生活片段改成奇幻场景、制作知识科普动画，降低了视频创作的门槛；短视频创作者可大幅提升内容生产效率，节省学习专业软件的时间成本，还能借助AI实现传统剪辑难以完成的创意效果。

阅读原文

返回资讯列表