视觉语言模型 / VLM

词条 · 2026/4/16

既能看图也能理解文字的模型。

VLM(Vision Language Model)把图像编码与语言理解结合起来,可做看图问答、表单识别、UI 理解、视频帧分析等任务。

同分类热词

返回首页