← 返回信息流
创投信息钛媒体·2 小时前

Google发布Gemma 4 12B:砍掉独立编码器,颠覆多模态架构

原标题:砍掉独立编码器:Gemma 4 12B推翻多模态"拼接设计"

速览

Google发布Gemma 4 12B模型,彻底移除ViT和音频编码器,将原始音画直接投影至LLM向量空间。该无编码器统一架构在9GB显存下实现接近26B MoE的性能,验证了中等规模多模态模型的量产可行性。此举标志着多模态研发逻辑从专用转换器拼接转向共享注意力机制,有望大幅降低部署门槛。

AI 深度解读

背景

2026年6月4日,Google 发布了 Gemma 4 12B。官方将其定位为介于 Gemma 4 8B(文中误写为E4B,结合上下文及Gemini系列命名习惯推测为8B或早期版本,此处保留原文语境中的“中端型号”定位)与 26B MoE 之间的中端模型。该模型支持在配备 16GB 显存的笔记本上运行,并以 Apache 2.0 许可证开源。

尽管官方宣传侧重于其低功耗和开源特性,但 DeepMind 科学家 Michael Tschannen 的推文揭示了更深层的技术意图:Gemma 4 12B 的核心突破在于“统一跨模态的模型和训练范式”。它不再依赖传统的独立编码器处理不同模态,而是直接处理原始文本、图像和音频输入。这一架构革新被视为对传统多模态“拼接设计”的根本性颠覆,也是其能在参数规模仅为 12B 的情况下,在性能上逼近甚至威胁到 26B MoE 大模型的核心原因。

核心内容

传统多模态模型(如 LLaVA、GPT-4V、Gemma 4 26B)普遍采用“拼接怪”架构。其工作流程为:使用 ViT(Vision Transformer)编码器将图像切块并提取特征向量,使用 Conformer 或 Whisper 编码器将声波转换为梅尔频谱并提取声学特征。随后,这些特征经过对齐层投影到 LLM 的文本向量空间,最后由语言模型处理。

这种架构存在结构性缺陷:

  1. 信息损耗不可逆:在信息到达 LLM 之前,必须经过至少一次压缩和转换。ViT 输出的是高维特征向量,原始像素信息丢失;Conformer 输出的是声学特征,原始声波时序纹理丢失。LLM 接收的是经过提炼的高层特征,缺乏原始画面的空间细节。
  2. 优化目标割裂:ViT 侧重图像分类,Conformer 侧重语音识别,LLM 侧重文本预测。拼接时需额外训练以弥合差异,导致“灾难性遗忘”现象频发。
  3. 架构冗余:独立编码器带来了额外的内存开销和对齐损耗。

Gemma 4 12B 彻底重构了这一逻辑,其核心创新在于“无编码器统一架构”:

  • 视觉处理革新:抛弃了传统的 ViT 编码器,改用仅 35M 参数的轻量嵌入模块。通过单次矩阵乘法、2D 坐标嵌入和归一化,图像块直接映射到与文本 Token 相同的向量空间,随后进入 Transformer 主干的注意力计算。提取特征的过程被简化为直接投影。
  • 音频处理革新:彻底移除音频编码器。原始音频信号不做频谱转换或声学特征提取,直接投影到文本 Token 的向量空间。
  • 统一处理机制:图像 Token、音频 Token 和文本 Token 按顺序排列,进入统一的 Transformer 主干。三种模态共享同一套注意力机制、主干网络权重和推理逻辑。虽然投影层因模态特性(如视觉需 2D 坐标嵌入,音频需时序切片)而异,但进入主干后,所有模态的表征空间和计算逻辑完全统一。

这种设计实现了“混合 Token 序列统一处理”,而非传统的“分别处理再拼接”。

关键要点

  • 架构颠覆:Gemma 4 12B 移除了独立的视觉和音频编码器,采用“直接投影”方式将原始模态数据映射到统一向量空间,实现了多模态数据的无损直通 LLM。
  • 性能表现:在 RTX 4090 实测中,Gemma 4 12B 生成 8.9k Token 的物理模拟代码时,显存占用仅 9GB,性能逼近配置 15GB 显存的 26B MoE 模型。两者参数差距达 140 亿,但 12B 模型以不到一半的显存实现了超半数的推理速度,且在代码生成质量和物理逻辑推理上几乎无差距。
  • 效率提升:无编码器设计消除了独立编码器的内存开销及特征对齐损耗。结合训练数据配比优化和架构效率提升,使得中等规模模型也能达到旗舰级效果。
  • 微调与部署优势:LoRA 等轻量微调方法可直接作用于 Transformer 主干,理论上可同步优化全模态回路,无需分别维护编码器和主干,解决了多模态对齐难题。
  • 硬件门槛降低:多模态推理从“双路工作站”降至“单张消费级显卡”,9GB 显存即可运行原生多模态,极大降低了普通开发者的使用门槛。
  • 扩展性潜力:统一嵌入空间在架构上预留了扩展接口,新增模态理论上只需定制专属投影层即可接入主干,但需配套相应的训练数据和任务设计,并非“零成本”接入。
  • 当前局限:面对超过三步的复杂串联任务或多工具联动场景,模型仍可能出现规划幻觉和路径偏移,处于从“能对话”向“能做事”过渡的阶段。

意义与影响

Gemma 4 12B 的发布标志着多模态 AI 研发逻辑的根本性转变:从“为每种模态设计专用转换器再拼接”转向“所有模态共享同一套注意力机制”。

  1. 动摇行业惯性:它证明了优化架构同样能追平旗舰效果,直接挑战了业界长期依赖“堆 MoE、堆参数量”来提升性能的研发思路。
  2. 验证量产可行性:作为第一个在中等规模、可商用、可本地部署的模型上验证“无编码器统一架构”可行性的产品,它为后续多模态模型的发展确立了新方向。
  3. 生态重构:随着硬件门槛的降低和微调流程的简化,多模态 AI 将更快进入普通开发者的工作流,推动应用生态的繁荣。
  4. 历史定位:未来回顾 2026 年多模态进展时,Gemma 4 12B 的架构选择将被反复引用。虽然 Gemma 4 26B 可能在基准分数上胜出,但 12B 模型改写了多模态的底层规则,证明了“大一统”无需堆砌模块,统一表示空间足以实现高效多模态处理。
查看原文 →tmtpost.com