AI大模型技术路线争论：你可以相信多模态，也可以忽视多模态

admin AI新闻 2026-05-20 13

增添视觉数据之后的GPT-4，有视觉信息派，与没有视觉信息的GPT-4（no vison）相比，在模拟考试里，成绩提高得并不显著。

甚至推导出这样一种结论，多模态大模型、这种技术路线，不能够有效地提升大模型“智慧”指数，对不对？

AI大模型技术路线争论：你可以相信多模态，也可以忽视多模态-第1张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

反方又打了个比方

（我怀疑在讽刺，但我没有证据）：

你把索尼最新款的单反相机挂到猴子脖颈上呢，就好像增添了视觉这么一种模态，你认为峨眉山的猴子对世界的理解能力会有所提升吗？

大语言模型不能够很好地运用视觉模态里的信息，这恰似猴子不可以领会借助复杂且专业的相机拍摄而成的照片所给出的信息。

暂且不论猴子有没有可能使用单反相机进行拍照，这个观点觉得，相机所捕捉到的图像，对于猴子来讲，仅仅是一批没有任何意义的色彩以及形状。

AI大模型技术路线争论：你可以相信多模态，也可以忽视多模态-第2张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

反方温和派的观点则认为，

如果语言模型本身存在不足，那么多模态对齐的效果也不会好。

将语言模型比厨师，而多模态对齐则是一道复杂菜肴。

厨师只有掌握了基本功，才能烹饪大席面。

同样，语言模型也只有在自身能力得到足够提升之后，

才能更好地对齐多模态。

现在语言模型动不动就幻觉，

在其没有做好之前，做原生多模态还为时尚早。

不得不承认，至今为止，

多模态模型确实面临很多困难，

包括还没能将多类信息整合为更深刻的理解，

但工作仍在继续。

现在给结论为时尚早。

是时候把争论带到另一个层面了：

话说得倒是轻巧，把那详细情况给我展示出来瞧瞧。

（二）技术细节与原理

对于多模态大模型技术路线来说，

今天的它，不是昨天的它。

似乎没过多久，多模态就经历了一次技术演进。

原有结构有所简化，

比如，图像编码器消失了，适配器也不见踪影。

模型结构的变化，带动了训练阶段的变化。

“仅有解码器的Transformer”这个模块成为核心。

给图像用，也给文字用，类型不同，也不用做区分。

怎么就发展出了原生多模态？

起于图文检索之时，早前突出之法皆是将所萃取出的特征映照至同一空间，其目的在于经对齐之后再去施行检索。

早期多模态大模型把这套方法“生搬硬套”过来用，

多少会有点“水土不服”。

而且，更重要的是这种提取信息的方式，会造成损耗。

我们在特征提取环节，损失了信息量。

有一些原始信息，像是数据彼此间局部关系以及全局结构，在特征提取时通常会被丢失。

而向量表示，是一类文本的表示方式或者图像的表示方式开云app在线入口,开云真人官方下载，它能有效地留存数据所承载的各方面有价值的信息。特征提取这个行为，虽然能够达成简化数据的效果，然而通常情况下，会造成一部分原始信息的流失，无法完整保留。

信息越是保持真实准确，模型能够学习到的信息就会越多。向量进行表示能够保留的数据原始信息会更多。并且，向量表示所具有的维数越高，能够保留的信息也就会越多。

老方法难尽如人意，对此，需专门设计出一套新“技术”。

什么样的新技术？

思想是想尽办法把不同的东西“统一处理”。

这个技术有两个拥趸：

1. Fuyu系列模型

Fuyu是创业公司Adept所发布模型所用名称，而这家公司有为“Transformer八子”中的Ashish Vaswani。Fuyu - 8B模型，其参数规模为80亿，尚未超过百亿。

它有着看上去“身形轻巧”的模样，然而却具备超强的图像理解能力，这种能力可以使其对照片以及图表加以理解，还能够理解 PDF 文档和界面 UI 等内容，并且其处理速度相当快。

2. 谷歌Gemini模型

有第二个Gemini，其线索隐匿于《Gemini技术报告》的模型架构之中，架构呈现为图状，是在图里藏着的，没错，线索就在这图里。

也是“仅有解码器的 Transformer 结构” 。

这幅图中Gemini大致有两个主要模块：

第一，融合层，负责理解和融合。

第二，图和文的解码器，负责生成，最终输出，文本或者图像。

AI大模型技术路线争论：你可以相信多模态，也可以忽视多模态-第3张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

做法是，先在预先处理环节，将图像分成小块（Patch），

再将每个小块转成向量（数字）表示。

转化成向量表示的方法有很多开云真人app,开云真人app地址，线性投影是其中一种。

这种类似拼图的图片小块，相当于视觉词元。

用于处理视觉词元的这个过程，其工作原理呈现出与文本处理之中的文本词元相类似的情况，是这样的，没错，就是如此。

假设可以“统一应对处理”，那么这便是一个“统一设备装置”，它能够将图以及文这样的数据投放进去。

其他模态可以此类推。

这个处理过程，或者说这个“装置”，就是Tokenizer。

它可是个好东西，我想叫它“化功大法”。

因为可理解为一种化解信息的神功，能将各种类型的数据

将文本，转化为统一格式，把图像转化为统一格式，把音视频转化为统一格式，再将这些统一格式的全部内容，转变为计算机能够理解的。

AI大模型技术路线争论：你可以相信多模态，也可以忽视多模态-第4张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

这里需要多聊2块5毛钱反方观点，

“化功大法”，有哪些难以攻克之处？

向量信息并不是一一对应的，可能会一对多，

而有监督学习解决不好一对多。

模型傻傻分不清楚，

这样情况就糟糕了。

正方观点认为，有了“统一装置”开云真人app官方版入口,开云真人app官网入口，

数据有了统一的“尺度”。

迈入了原生多模态的门槛。

接下来，通过“统一装置”后，

图文音等各种类型的数据在向量表示这个阶段，

形成了新的词元（Token）序列。

持续往下，将其输入至核心模型当中，此核心模型为Transformer decoder。

在进行输入送给之后，等于这么多不一样模态的数据，要用一个模型去把它们来个大杂烩。

而不是以前分而治之。

这是种全新的核心组件，

甚至说是“替代方案”，也毫不为过。

甚至存在正方所提出的观点表明，这种结构已然趋向于收敛，换而言之，大致就是属于成熟的结构了。

讲完技术细节，文章也步入尾声了，

2024年注定是一个声音在热浪中挣扎的年份，

多模态是一个肯定要做的方向，

信仰者和无视者都有意义，

无论是谁都在摸索中前进。

（完）

《我看见了风暴：人工智能基建革命》，

标签： AI大模型多模态技术技术路线争论视觉信息模型发展

本文地址： http://www.loftymarthk.com/post/19.html