新闻正文
2026年5月22日,谷歌DeepMind正式推出新一代多模态生成模型Gemini Omni,首款落地产品Gemini Omni Flash已同步上线Gemini应用、Google Flow及YouTube Shorts平台。该模型实现了推理能力与生成能力的深度融合,支持以视频、图像、音频、文本为输入,生成符合现实逻辑的高质量视频内容。 此前谷歌曾推出Nano Banana功能,将Gemini的AI能力应用于图像生成与编辑,已帮助数百万用户修复老照片、将草图转化为设计图。此次推出的Gemini Omni则更进一步,从原生多模态架构出发,支持跨模态内容的生成与编辑,用户可通过自然语言指令,对视频进行多轮递进式修改,且能保持角色、物理规则、场景逻辑的一致性。 Gemini Omni的核心优势在于其精准的物理规则理解能力,以及对历史、科学、文化等知识库的融合应用。它能根据指令生成符合重力、动能、流体动力学等物理规则的场景,还能基于知识库实现有叙事性的内容创作,比如生成以特殊物品对应字母的科普视频。未来谷歌还将逐步拓展其支持的输出模态,覆盖图像、音频等更多类型。