创投信息钛媒体·2 小时前

Google发布Gemma 4 12B：砍掉独立编码器，颠覆多模态架构

原标题：砍掉独立编码器：Gemma 4 12B推翻多模态"拼接设计"

速览

Google发布Gemma 4 12B模型，彻底移除ViT和音频编码器，将原始音画直接投影至LLM向量空间。该无编码器统一架构在9GB显存下实现接近26B MoE的性能，验证了中等规模多模态模型的量产可行性。此举标志着多模态研发逻辑从专用转换器拼接转向共享注意力机制，有望大幅降低部署门槛。

AI 深度解读

背景

2026年6月4日，Google 发布了 Gemma 4 12B。官方将其定位为介于 Gemma 4 8B（文中误写为E4B，结合上下文及Gemini系列命名习惯推测为8B或早期版本，此处保留原文语境中的“中端型号”定位）与 26B MoE 之间的中端模型。该模型支持在配备 16GB 显存的笔记本上运行，并以 Apache 2.0 许可证开源。

尽管官方宣传侧重于其低功耗和开源特性，但 DeepMind 科学家 Michael Tschannen 的推文揭示了更深层的技术意图：Gemma 4 12B 的核心突破在于“统一跨模态的模型和训练范式”。它不再依赖传统的独立编码器处理不同模态，而是直接处理原始文本、图像和音频输入。这一架构革新被视为对传统多模态“拼接设计”的根本性颠覆，也是其能在参数规模仅为 12B 的情况下，在性能上逼近甚至威胁到 26B MoE 大模型的核心原因。

核心内容

传统多模态模型（如 LLaVA、GPT-4V、Gemma 4 26B）普遍采用“拼接怪”架构。其工作流程为：使用 ViT（Vision Transformer）编码器将图像切块并提取特征向量，使用 Conformer 或 Whisper 编码器将声波转换为梅尔频谱并提取声学特征。随后，这些特征经过对齐层投影到 LLM 的文本向量空间，最后由语言模型处理。

这种架构存在结构性缺陷：

信息损耗不可逆：在信息到达 LLM 之前，必须经过至少一次压缩和转换。ViT 输出的是高维特征向量，原始像素信息丢失；Conformer 输出的是声学特征，原始声波时序纹理丢失。LLM 接收的是经过提炼的高层特征，缺乏原始画面的空间细节。
优化目标割裂：ViT 侧重图像分类，Conformer 侧重语音识别，LLM 侧重文本预测。拼接时需额外训练以弥合差异，导致“灾难性遗忘”现象频发。
架构冗余：独立编码器带来了额外的内存开销和对齐损耗。

Gemma 4 12B 彻底重构了这一逻辑，其核心创新在于“无编码器统一架构”：

视觉处理革新：抛弃了传统的 ViT 编码器，改用仅 35M 参数的轻量嵌入模块。通过单次矩阵乘法、2D 坐标嵌入和归一化，图像块直接映射到与文本 Token 相同的向量空间，随后进入 Transformer 主干的注意力计算。提取特征的过程被简化为直接投影。
音频处理革新：彻底移除音频编码器。原始音频信号不做频谱转换或声学特征提取，直接投影到文本 Token 的向量空间。
统一处理机制：图像 Token、音频 Token 和文本 Token 按顺序排列，进入统一的 Transformer 主干。三种模态共享同一套注意力机制、主干网络权重和推理逻辑。虽然投影层因模态特性（如视觉需 2D 坐标嵌入，音频需时序切片）而异，但进入主干后，所有模态的表征空间和计算逻辑完全统一。

这种设计实现了“混合 Token 序列统一处理”，而非传统的“分别处理再拼接”。

关键要点

架构颠覆：Gemma 4 12B 移除了独立的视觉和音频编码器，采用“直接投影”方式将原始模态数据映射到统一向量空间，实现了多模态数据的无损直通 LLM。
性能表现：在 RTX 4090 实测中，Gemma 4 12B 生成 8.9k Token 的物理模拟代码时，显存占用仅 9GB，性能逼近配置 15GB 显存的 26B MoE 模型。两者参数差距达 140 亿，但 12B 模型以不到一半的显存实现了超半数的推理速度，且在代码生成质量和物理逻辑推理上几乎无差距。
效率提升：无编码器设计消除了独立编码器的内存开销及特征对齐损耗。结合训练数据配比优化和架构效率提升，使得中等规模模型也能达到旗舰级效果。
微调与部署优势：LoRA 等轻量微调方法可直接作用于 Transformer 主干，理论上可同步优化全模态回路，无需分别维护编码器和主干，解决了多模态对齐难题。
硬件门槛降低：多模态推理从“双路工作站”降至“单张消费级显卡”，9GB 显存即可运行原生多模态，极大降低了普通开发者的使用门槛。
扩展性潜力：统一嵌入空间在架构上预留了扩展接口，新增模态理论上只需定制专属投影层即可接入主干，但需配套相应的训练数据和任务设计，并非“零成本”接入。
当前局限：面对超过三步的复杂串联任务或多工具联动场景，模型仍可能出现规划幻觉和路径偏移，处于从“能对话”向“能做事”过渡的阶段。

意义与影响

Gemma 4 12B 的发布标志着多模态 AI 研发逻辑的根本性转变：从“为每种模态设计专用转换器再拼接”转向“所有模态共享同一套注意力机制”。

动摇行业惯性：它证明了优化架构同样能追平旗舰效果，直接挑战了业界长期依赖“堆 MoE、堆参数量”来提升性能的研发思路。
验证量产可行性：作为第一个在中等规模、可商用、可本地部署的模型上验证“无编码器统一架构”可行性的产品，它为后续多模态模型的发展确立了新方向。
生态重构：随着硬件门槛的降低和微调流程的简化，多模态 AI 将更快进入普通开发者的工作流，推动应用生态的繁荣。
历史定位：未来回顾 2026 年多模态进展时，Gemma 4 12B 的架构选择将被反复引用。虽然 Gemma 4 26B 可能在基准分数上胜出，但 12B 模型改写了多模态的底层规则，证明了“大一统”无需堆砌模块，统一表示空间足以实现高效多模态处理。

查看原文 →tmtpost.com

Google发布Gemma 4 12B：砍掉独立编码器，颠覆多模态架构

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐