智猩猩

AAAI 2026收录！让LLM更懂视觉的多模态预训练方法开源，7B模型完胜LLaVA-NeXT

分类：大语言模型

2026-01-22 15:00:26

智猩猩AI整理

格灵深瞳投稿

大型多模态模型（LMMs）在预训练阶段常面临模态表征差距问题：语言嵌入通常保持稳定，而视觉表征对上下文噪声（例如背景杂乱）高度敏感。

为解决这一问题，格灵深瞳联合中国科学技术大学、华为、伦敦帝国理工学院引入了一个视觉理解阶段ViCToR（基于token重建视觉理解），这是一种面向 LMM 的新型预训练框架。ViCToR 采用一个可学习的视觉 token 池，并利用匈牙利匹配算法从该池中选择语义相关的 token，用于替换原始视觉 token。此外，通过将视觉 token 重建损失与密集语义监督相结合，ViCToR 能够学习到保留丰富视觉细节的 token，从而增强大语言模型（LLM）对视觉信息的理解能力。在使用 300 万张公开可用的图像-文本对进行预训练后，ViCToR 取得了SOTA性能，在 MMStar、SEED-I 和 RealWorldQA 基准上分别比 LLaVA-NeXT-8B 提升了 10.4%、3.2% 和 7.2%。该成果已被AAAI 2026收录。

论文名称：ViCToR: Improving Visual Comprehension via Token Reconstruction for Pretraining LMMs
code：https://github.com/deepglint/Victor
paper：https://arxiv.org/abs/2410.14332

01 过去的多模态预训练方法

如何让LLM更好的理解视觉特征，这是多模态大模型在设计之初就需要思考的问题。OpenAI在CLIP中首次提出了通过对比学习方法，直接让视觉编码器对视觉的理解对齐人类语义。在有了对齐人类语义的视觉编码器之后，BLIP和LLaVA等工作开始尝试将视觉编码器与大语言模型连接到一起，试图让LLM长出眼睛看懂世界！

BLIP和LLaVA自设计之初开始，就在思考如何将视觉特征映射到文本空间中去，让LLM更好的理解视觉。LLaVA通过两层线性层的简单模块设计取得了卓越的效果，对后面许多的工作产生了深远的影响。人们发现，只要简单的维度映射模块和短caption的数据，就能让LLM对视觉内容有着初步的认知。加之以精心挑选的VQA数据进行微调，就能得到看懂世界的多模态大模型。随着研究的不断丰富，人们进一步发现，似乎可以制作大量的caption数据，从而保证LLM更加全面的理解视觉，并持续带来了能力的提升。

随着行业的不断发展，人们对于多模态大模型的普遍预训练的认知就是：简单的模块将视觉特征映射到语言特征空间中，辅以尽可能多的caption数据来提升视觉认知能力。

02 视觉和语言之间存在怎样的Gap？

但是让我们回归本质，视觉和语言，从本质的信息组成上他们究竟有怎样的Gap？

首先语言作为由人类创造的，用于对世界知识进行凝练抽象化和个人思想表达的信息媒介，其被在任意地方记录时，总会带着一定的前后因果与丰富的有效信息。学术界与工业界可以尽可能收集这些语言数据，并在海量的数据上进行大规模的自回归训练，得到现如今能力强悍的大语言模型。因此，语言的信息往往具有两个非常显著的特点，有限离散与因果。

相对而言，自数字媒体技术发明以来，图片这种信息媒介开始大量出现。相比于人们在进行书写时候的慎重表达，人们对于按下快门这件事似乎并没有那么慎重。大量的随意拍摄的图片在人类社会传播，物体与物体之间几乎可以有数不清的任意组合形式出现在图像中。因此图片中的不同元素的组合往往是空间拼接的，而非前后因果的。除此之外，相对于语言对物体的抽象表达，同一类事物在图片中的表现又有无数种。因此图片的特征空间其实是连续且无限的。

因此从本质上来说，视觉语言之间始终有两条巨大的鸿沟——无限与有限、前后因果与空间拼接。

03 ViCToR：让LLM更懂视觉的多模态预训练方法

为了弥补视觉与语言之间的模态鸿沟，ViCToR通过视觉特征重建与VTP模块来让LLM更好的理解视觉特征。

首先，为了让LLM理解视觉信息的组织形式是空间上的拼接，而非前后因果关系，ViCToR通过随机mask的方式，保证LLM只能看到空间上离散的视觉特征。再利用特征级别的重建，促使LLM通过上下左右的可见的视觉特征“想象”中间的视觉特征的形式。

其次，由于视觉特征空间是无限的，为了让LLM主动总结视觉特征的类别。ViCToR提出了一种VTP组件，随机初始化N个可学习的视觉特征，并在将视觉特征喂给LLM之前，对部分的视觉特征从N个可学习的视觉特征中选择最相近的部分特征进行替换。利用此方式，LLM会不断优化VTP组件中的N个视觉特征，形成对视觉特征的总结与抽象。

除此之外，ViCToR还提出，此方式只需要作用于stage 1.5，可以促使图片的caption和视觉重建任务相辅相成，以较低的成本实现更佳的预训练效果。

04 实验

ViCToR-7B基于SigLip2和Qwen2.5-7B的预训练模型，在3m预训练数据和780k结构化微调数据上训练出超越了近似量级的多个SOTA模型。

并且为了在相对公平的情况下体现ViCToR与其他预训练方法的高效性，研究团队还控制了视觉基座、预训练数据等多个setting相同或劣势于其他的方法进行了比较实验。

通过对不同图片中的视觉特征与VTP中的N个训练后的特征进行聚类，研究团队可视化了VTP对视觉内容强大的抽象能力。

05 总结

在当前业界普遍采用堆数据暴力升级的方式下，ViCToR从模态信息组织差异的本质入手，似乎能更好的解释为什么当前的多模态发展瓶颈。这启发了后面的相关工作应当更加关注信息本质，让模型的训练能够符合原本的信息特点。这或许也是为什么主流LLM总是自回归的因果mask attention，而ViT总是双向可见的attention的原因。