正因如此,我们经常能在最新的具身智能研究论文中看到这样一句话:
“With the development of Vision-Language Models...”——视觉-语言模型(VLMs)的发展,正在深刻改变这一局面。
通过在海量图文对上进行预训练,VLM 学会了视觉与语言之间的深层对应关系,并展现出强大的零样本泛化能力。更重要的是,在具身智能的语境下,VLM 不再只是单纯的感知工具,而是成为机器人“理解—决策—行动”闭环中的关键桥梁:
在 VLN 中,它帮助机器人将语言指令与环境场景对齐;
在 VLA 中,它则进一步承担起从语义理解到动作生成的核心角色。
随之,VLM相关的研究也越来越多:
▲图1|Google Scholar上VLM相关论文的发文量统计(从CLIP开始,走出了一个指数上升的趋势)©️【深蓝具身智能】编译
本文将结合VLM的最新动态,系统盘点 VLM 的基础要素——包括主流架构、常用数据集、典型预训练目标与评估方式,并结合 VLN 和 VLA 这两类具身智能中的代表性任务,深入解读VLM 如何助力机器人迈向更加通用、自然与高效的智能。
01 VLM基础与主流架构
视觉-语言模型(VLM)的核心思想,是通过在大规模图文对上进行预训练,让模型学会图像与文本之间的对应关系,从而在下游任务中实现零样本预测。
换句话说,一个训练好的 VLM,可以在没有特定任务微调的情况下,仅通过比对图像和文本的语义表示,就能完成分类、检索甚至检测与分割等任务。
这篇文章,和大家一起盘点VLM中最重要的四个方面:网络架构、预训练目标、预训练框架以及评估与下游任务。
VLM 通常由图像编码器和文本编码器组成,用于将输入图像和文本映射到共享的语义空间。
(1)图像特征学习:
CNN架构:早期方法采用 ResNet、EfficientNet 等卷积网络。其中,ResNet 是最常用的基础结构,研究者在此基础上进一步改进,例如引入 ResNet-D、抗锯齿的下采样操作,以及利用注意力池化来替代全局平均池化。
Transformer架构:近年来,Vision Transformer (ViT) 成为主流选择。它将图像划分为固定大小的 patch,再通过 Transformer 编码器提取特征。研究中也有对 ViT 的改进,例如在编码器前加入归一化层。
(2)文本特征学习:
几乎所有方法都基于 Transformer 及其变体。典型的如 CLIP,直接采用标准 Transformer 结构,或进行轻量化修改(如 GPT-2 风格),用来对自然语言文本进行建模。
▲图2|视觉识别中的三种DNN训练范式。与(a)和(b)中需要用标注数据对每个特定任务进行微调的方法相比(c)中vlm的新学习范式可以实现对于Web数据的广泛使用和零样本预测©️【深蓝具身智能】编译
为了让模型真正学会视觉与语言之间的相关性,研究者设计了多种预训练任务,大体可分为三类:
(1)对比学习(Contrastive Objectives):
核心思路是“拉近配对,推远不匹配”。最经典的就是 CLIP 的图文对比学习(Image-Text Contrastive),通过 InfoNCE 损失来对齐图像与文本的表示。
(2)生成式目标(Generative Objectives):
要求模型在遮挡或缺失的情况下重建内容,包括 Masked Image Modeling、Masked Language Modeling,以及跨模态的 Masked Cross-Modal Modeling。同时也包括从图像生成文本、或从文本生成视觉特征的任务。
(3)对齐目标(Alignment Objectives):
不仅关注全局的图文匹配,还涉及更细粒度的 region-word 匹配(局部区域与单词的对齐),以便服务于检测和分割等任务。
VLM 的训练框架主要有三种:
(1)Two-tower 框架:
图像和文本分别通过独立的编码器处理,最终在语义空间对齐(如 CLIP)。
(2)Two-leg 框架:
在双编码器的基础上增加多模态融合层,让图像和文本在训练阶段就进行交互。
(3)One-tower 框架:
尝试在同一个编码器里统一建模视觉和语言信息,以提升模态间的通信效率。
▲图3|常见的VLM预训练框架©️【深蓝具身智能】编译
综述中总结了常见的两类评估方式:
(1)零样本预测(Zero-shot Prediction):直接将预训练好的 VLM 应用于下游任务。 例如:
1.图像分类:通过 prompt 工程,将类别转化为文本描述,与图像embedding 匹配。
2.语义分割:像素级 embedding 与文本对齐。
3.目标检测:利用辅助数据集的能力,通过 proposal 与文本匹配实现检测。
4.图文检索:进行text-to-image或image-to-text 的跨模态检索。
(2)线性探针(Linear Probing):冻结 VLM 的参数,只在其特征之上训练一个简单的线性分类器,以评估模型的表示能力。
02 VLM的数据集与基准
要让视觉-语言模型真正具备理解图像和语言的能力,首先需要足够的数据。
相比传统依赖人工标注的数据集(如早期的图像分类任务),VLM 更强调从“大规模图文对”中学习。这类数据通常来自互联网,既数量庞大,又涵盖了丰富多样的语义表达。
目前主流的 VLM 都依赖于大规模的图文对数据集进行预训练。这些数据动辄上亿,来源包括网页、开源图片平台和社交媒体。这样的数据规模让模型能够捕捉跨模态的通用关联。
一些方法还会额外引入少量人工标注的数据集,帮助模型在目标检测、语义分割等细粒度任务上获得更强的能力。
▲图4|VLM训练中常用的图像-文本对应数据集©️【深蓝具身智能】编译
如果说预训练数据是模型的“教材”,那么评估数据就是它的“考试”。研究者们建立了多个维度的测试基准:
(1)图像分类:涵盖从细粒度识别到大规模通用分类等不同层次;
(2)目标检测与语义分割:考察模型是否能定位和解析图像中的具体物体;
(3)图文检索:测试模型在跨模态检索中的能力,例如“以文找图”或“以图找文”;
(4)动作识别:进一步拓展到视频和时序场景,检验模型对动态事件的理解能力。
通过这些任务,可以全面评估 VLM 的泛化性和跨任务适应能力。特别是常见的 零样本测试,只需输入图像和文本,不做任何额外训练,就能直接验证模型的表现,这也是它在具身智能领域备受青睐的重要原因。
▲图5|常用于VLM评估的数据集汇总©️【深蓝具身智能】编译
03 VLM 的预训练目标
在真正进入应用场景之前,视觉-语言模型首先要经历“大规模的自我学习”。这一学习过程,就是通过预训练来建立图像和语言之间的关联。
当前主流的 VLM 预训练大体分为三类目标:对比学习(contrastive)、生成学习(generative)和匹配对齐(alignment)。
对比学习的核心思想是“拉近正确的图文对,推远错误的图文对”。这样,模型就能逐渐学会在海量图文数据中,找出真正语义相关的匹配关系。
这种机制不仅帮助模型在分类、检索任务中表现突出,也奠定了零样本预测的能力。
(1)在视觉模态内部,可以通过对比目标增强图像特征的判别力;
(2)在跨模态之间,通过图文对比,模型逐步掌握语言描述与视觉内容的对应关系;
(3)甚至还可以把图像的类别标签也纳入对比学习,从而同时学到更细致的判别能力。
对比学习的优势是特征判别性强,缺点是需要设计合适的正负样本,以及控制超参数,这会带来一定挑战。
▲图6|VLM图文对比学习框架示意图©️【深蓝具身智能】编译
生成学习的思路是“遮住一部分,再让模型自己补回来”。
(1)在图像侧,模型通过遮挡图像块再去重建,迫使自己理解上下文;
(2)在文本侧,模型通过掩码语言建模来恢复被遮住的词语;
(3)在跨模态侧,可以同时遮住图像和文本的一部分,让模型去推断完整信息;
(4)还有一种方式是让模型直接把图像“翻译”成文字,即自动生成描述性文本。
这些生成目标帮助模型学到更丰富的上下文知识,因此常常与其他预训练目标结合使用,以增强语义理解和跨模态关联。
▲图7|一个通过遮挡图像并让图像自行重建从而学习理解上下文的框架©️【深蓝具身智能】编译
对齐目标强调的是“判断一对图文是不是配对的”。
这种方式更直接,通常用来训练模型具备快速的配对判断能力:
全局匹配:看整张图和整段文字是否对应;
局部匹配:更细致地把图像中的局部区域与文本中的词语对应起来。
全局匹配让模型在图文检索等任务中很有优势,而局部匹配则为检测、分割等任务提供了细粒度的语义支撑。
▲图8|图文全局匹配的框架示意图©️【深蓝具身智能】编译
可以把这三类目标理解为 VLM 的“学习三步曲”:
对比:拉近和推远,学会判别;
生成:遮挡和补全,学会推理;
对齐:真假配对,学会匹配。
在实际的模型训练中,这些目标往往不是单独使用,而是结合在一起。通过互补,VLM 才能同时具备全局和局部、判别和生成的多重能力。
04 VLM助力具身智能视觉任务
前面我们盘点了 VLM 的核心构成:大规模图文数据、预训练目标与常见方法。可以把它们理解为“语言+视觉”的通用底座。
在这一环节完成之后,VLM 就不再只是一个静态的模型,而是可以真正被部署到机器人系统中,成为感知与决策的“大脑”。
那么,VLM 在具身智能领域究竟能做什么?
最典型的两个方向就是视觉-语言导航(VLN)和视觉-语言-动作(VLA)。
VLN:让机器人听懂一句自然语言指令,比如“走到书架旁边”,并通过视觉感知找到目标位置并导航过去。
VLA:不仅要看懂和理解,还要把理解转化为具体的动作,比如“拿起桌上的杯子”,这需要模型在视觉与语言的基础上直接生成动作序列。
这两个任务,正好代表了从“认知”到“操作”的完整链路:
前者强调在环境中找到目标,后者则进一步强调与环境的交互。它们也成为了检验 VLM 能否真正助力具身智能的关键试金石。
接下来,我们就以 VLN 和 VLA 为例,看看 VLM 是如何推动机器人在复杂环境中实现自主感知、理解与行动的。
在具身智能中,视觉-语言导航是最具代表性的任务之一。
它要求机器人根据自然语言指令,在复杂环境中感知、理解并找到目标位置。看似简单的一句话指令,比如“从走廊穿过客厅,去到沙发旁边”,实际上涉及到语言理解、场景感知、路径规划等多个环节。
传统方法往往将语言理解和视觉感知分开处理,再通过规则或手工设计的策略拼接。但在多变和复杂的真实环境中,这种方式往往力不从心。VLM 的引入,使得这一任务出现了新的可能。
▲图9|VLN的发展脉络:可以清晰的看到正是通用能力极强的VLM模型CLIP发布之后,VLN才逐步“兴起”©️【深蓝具身智能】编译
第一,VLM 提供了自然语言与视觉语义的统一表达
通过在大规模图文数据上预训练,VLM 学会了如何将“沙发”“走廊”这样的语言描述与视觉场景中的对象或区域对应起来。
这样,机器人接收到指令后,可以直接把语言目标投射到视觉空间中,大幅降低了语言到感知的“翻译成本”。
第二,VLM 增强了目标检索与环境理解的能力
在导航过程中,机器人需要不断确认目标是否出现在当前视野中。VLM 能够为图像画面中的各个区域打分,并与语言目标进行匹配。
这种能力不仅支持零样本场景(即模型从未见过的环境),还让机器人在面对模糊描述时具备更强的泛化能力。
第三,VLM 为规划与行动提供了语义引导
在具备语义匹配能力后,机器人可以在地图或空间表示中标注出与目标相关的区域,从而将路径规划与语义信息结合。
例如,机器人不再仅仅依赖几何上的最短路径,而是能够优先选择那些更可能接近目标的方向。
总体来看,VLM 在 VLN 中起到的作用就像是一座“桥梁”:它让语言和视觉真正贯通,从而帮助机器人听懂人类的指令,并在复杂环境中找到正确的方向
如果说视觉-语言导航是让机器人“走到哪儿去”,那么视觉-语言-动作(VLA)则是进一步回答“到了之后做什么”。
这一任务要求机器人不仅能理解环境和语言,还能将理解直接转化为一连串动作指令,实现与环境的交互。比如,“拿起桌上的水杯递给我”这样一句话,包含了目标识别、物体定位、操作动作生成等多个环节。
▲图10|VLA方法的核心框架:框架中左侧的多模态数据(Multimodal Data)就是通过VLM来进行编码处理的©️【深蓝具身智能】编译
第一,VLM 提供了跨模态的语义对齐能力
通过在大规模图文数据上学习,VLM 能够把“水杯”“书本”这样的语言描述,与视觉场景中的具体对象对齐。
这种统一的语义空间为动作生成奠定了基础——机器人首先要知道“目标是什么”,才能进一步思考“如何操作”。
第二,VLM支持语言条件下的动作理解与生成
与 VLN 偏向于“目标定位”不同,VLA 更强调“任务执行”。在这一过程中,VLM 可以作为语义感知层,将自然语言转化为高层语义目标,再结合下游的策略模型或控制器,生成可执行的动作序列。
例如,听到“把书放到桌子上”,VLM 能够帮助识别“书”和“桌子”,并把二者之间的关系传递给动作规划模块。
第三,VLM 赋予机器人更强的泛化和适应性
现实世界的任务往往是开放且不可预测的,机器人不可能依赖固定的脚本来完成所有动作。VLM 的优势在于它能够理解从未见过的语言描述,并将其与视觉场景联系起来,从而支持零样本或少样本的操作任务。
这意味着,即便机器人从未专门训练过“把水果放进篮子里”,它也可能凭借跨模态的语义理解完成这一任务。
可以说,VLA是具身智能的关键落脚点之一,而 VLM 的引入则让这一目标从“看得见”迈向了“做得到”。它使机器人不仅能感知与理解世界,还能基于语言和视觉的融合,真正与世界互动
无论是 VLN 的目标定位,还是 VLA 的任务执行,它们都展现出同一个趋势:
VLM 已经成为机器人理解世界和行动的重要基石。
通过统一视觉与语言的语义表达,VLM 打破了感知和指令之间的壁垒,让机器人能够从自然语言中直接获取环境目标和操作需求。它既提升了导航与检索的准确性,也增强了任务执行的灵活性和泛化能力。
换句话说,VLM 让机器人从“看懂”到“做到”之间的距离大大缩短,也让具身智能在真实世界中的应用变得更加可行和高效。
05 总结
从“看得见”到“做得到”,VLM 已经成为具身智能中最关键的拼图之一。它让机器人能够听懂人类的语言,理解复杂的场景,并将这些理解转化为实际行动。
从VLN到VLA,VLM的能力正一步步推动机器人走向真正的自主与智能。未来,随着模型规模的扩展和训练方法的演进,VLM 还会带来更多惊喜。或许在不远的将来,我们就能看到真正意义上“能听会看、能理解会操作”的机器人伙伴出现在身边。