Gemma 4:谷歌开源31B干翻4000亿,Mac Mini就能跑

就在前两天,Google DeepMind CEO Demis Hassabis 发了一条推文,AI圈炸锅了。

Gemma 4 来了。

31B参数,开源,Apache 2.0协议,Mac Mini能跑,打爆4000亿参数的巨无霸。

Google之前开源过 Gemma,但一直差点意思——参数小、 benchmark 打不过竞品、许可证也一堆破事。这次全改了。


一、四个型号,总有一款适合你

Gemma 4 发了四个型号,从手机到工作站都能跑:

  • E2B(2.3B有效参数 / 5.1B含词表)——手机、树莓派。带原生音频,128K上下文。ARM设备上跑实时语音AI没问题。

  • E4B(4.5B有效参数 / 8B含词表)——笔记本、边缘设备。同样带音频,128K上下文。

  • 26B MoE(总26B,激活4B)——这次最亮眼的型号。MoE架构,推理时只激活3.8B参数,速度约等于4B模型,质量接近26B。256K上下文。Mac Mini 24GB内存可以流畅跑。

  • 31B Dense(30.7B)——满血版工作站旗舰。256K上下文,不带音频但视觉理解拉满。H100单卡可以跑bf16精度,消费级显卡量化后也能跑。

E2B/E4B的E是 effective(有效参数),实际推理时embedding层加起来是5.1B和8B。这种设计与Per-Layer Embeddings(PLE,每层独立embedding表)技术有关,专门优化端侧内存效率。


二、跨代飞跃——数字有多炸

Gemma 4 直接把上一代的短板全补上了,还顺带翻倍。

  • 数学(AIME 2026 no-tools):20.8% → 89.2%,提升了68.4个百分点。翻了超过4倍。上一代基本做不了竞赛数学题,Gemma 4 能做出接近满分。

  • 代码(LiveCodeBench v6):29.1% → 80.0%,提升50.9个百分点。上一代代码能力约等于新手,Gemma 4 已经可以当半个Code Assistant用了。

  • 研究生级科学推理(GPQA Diamond):42.4% → 84.3%,提升41.9个百分点。考的是博士级别科学问题,Gemma 4 能答对八成以上。

  • BigBench Extra Hard:19.3% → 74.4%,提升55.1个百分点。需要多步推理的复杂任务,提升幅度极大。

  • 上下文记忆(MRCR v2,128K长文本检索):13.5% → 66.4%,提升52.9个百分点。上一代的长上下文基本是假的——能接收但用不好。Gemma 4 的256K上下文是真实可用的。

  • Codeforces ELO:110 → 2150。110分约等于刚学会编程,2150分约等于有竞赛经验的程序员。这个跨越在开源模型里极为罕见。

资料来源:Google官方model card(ai.google.dev/gemma/docs/core/model_card_4),Stable Learn整理版(stable-learn.com/en/gemma-4-model-card/),AI.rs横向评测(ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared)


三、Arena AI 排行榜——第三方怎么说

Google自己吹不算数,来看看第三方。Arena AI是众包聊天偏好排行榜,模型不知道自己在被比较,是目前最接近真实使用体验的排名。

截至2026年3月31日(数据来源:Maniac.ai引用Arena AI页面,maniac.ai/blog/qwen-3-5-vs-gemma-4-benchmarks-by-size):

模型 Arena AI排名 Elo分数
Gemma 4 31B #3开源模型 1452 ± 9
Qwen3.5-397B-A17B #4 1449 ± 6
Gemma 4 26B MoE #6 1441 ± 9
Qwen3.5-122B-A10B 1416 ± 6
Qwen3.5-27B 1404 ± 6
Qwen3.5-35B-A3B 1400 ± 6

Arena AI是聊天偏好排名,和静态benchmark不完全相关。但它说明了一个事实:在真实对话场景下,Gemma 4 的大模型已经可以和4000亿参数的Qwen掰手腕了。


四、跟 Qwen 3.5 比怎么样——同尺寸正面battle

Maniac.ai做了非常详细的同尺寸横向对比,把model card里两者都发布的benchmark拿来逐行比。结论比较微妙,不是「谁全面碾压谁」那么简单。

31B vs 27B(工作站旗舰档)

Benchmark Gemma 4 31B Qwen3.5-27B 谁赢
MMLU-Pro(通用知识推理) 85.2% 86.1% Qwen小幅领先
GPQA Diamond(研究生科学) 84.3% 85.5% Qwen小幅领先
LiveCodeBench v6(代码) 80.0% 80.7% 几乎相同
TAU2(Agent工具调用) 76.9% 79.0% Qwen领先
MMMLU(多语言) 88.4% 85.9% Gemma领先
MMMU-Pro(多模态) 76.9% 75.0% Gemma领先

静态benchmark Qwen略优,但差距极小;多语言和多模态Gemma反超。这个尺寸两家打得有来有回。

26B MoE vs 35B MoE(消费级MoE档)

这是Gemma最亮眼的档位。26B MoE推理只激活3.8B参数,但质量达到了31B dense的97%:

Benchmark Gemma 4 26B MoE Gemma 4 31B Dense
MMLU-Pro 82.6% 85.2%
AIME 2026 88.3% 89.2%
LiveCodeBench v6 77.1% 80.0%
Arena AI排名 1441 1452(只差11分)

花4B模型的推理成本,拿到31B模型97%的质量。这个效率比任何Dense模型都强。

对比同类的Qwen3.5-35B-A3B(激活3B参数):Arena AI里Gemma 26B MoE(1441)领先Qwen 35B MoE(1400)41分,差距明显。

E2B / E4B(小模型档)

这个档位比较意外:Qwen 3.5 在多数benchmark上领先。

  • E4B(4B) vs Qwen3.5-4B:Qwen在MMLU-Pro(79.1% vs 69.4%)、GPQA(76.2% vs 58.6%)、LiveCodeBench(55.8% vs 52.0%)、TAU2(79.9% vs 42.2%)上全面领先。

  • E2B(2B) vs Qwen3.5-2B:同样的趋势,Qwen在3/4个overlap benchmark上领先。

Gemma E2B/E4B的优势是:原生音频支持(Qwen小模型没有)、Google移动生态(Android AICore)、128K上下文。

结论:小模型党如果纯看文本benchmark,Qwen 3.5 更强;如果需要音频或者在Android上跑,Gemma E系列是唯一选择。


五、Mac 本地能跑吗

  • 26B MoE(推荐):Mac Studio M2 Max 64GB 完全没问题,量化后Q4_K_M版本约14GB显存,24GB内存的Mac Mini也能跑。速度大约每秒15-25 tokens。

  • 31B Dense(高性能):M2 Max跑Q4量化约20GB内存,需要32GB内存的机器才比较流畅。

  • E4B(笔记本日常):任何有16GB内存的MacBook都能跑,8GB显存也够。适合日常对话、文案、代码补全。

推荐工具:LM Studio(图形界面)、Ollama(命令行)、llama.cpp(原生推理,性能最优)。


六、这次为什么不一样——许可证的意义

Gemma 4 切到了 Apache 2.0——这是什么意思?

  • 随便用:任何商业产品、任何数量、任何场景,完全免费。

  • 随便改:可以修改代码、可以训练、可以蒸馏,不需要通知Google。

  • 随便分发:可以做成SaaS、可以做成API服务、可以集成进别人的产品,不需要开源衍生代码。

对比 Qwen 3.5:也是 Apache 2.0,两家打平。

对比 Llama 4:Community License,700M MAU上限 + Meta Acceptable Use Policy,商用有诸多限制。Gemma 4 的许可证反而比 Llama 4 更宽松。

对于想做独立开发、AI产品创业的人来说,Gemma 4 基本上没有法律风险了。


七、还有一些值得关注的技术细节

  • Thinking Mode(思考模式):Gemma 4 支持链式推理,模型会在回答前输出内部思考过程,最长可达4000+ tokens。类似 DeepSeek-R1 和 OpenAI o1 的技术路线,是这次数学和代码能力大幅提升的关键。

  • Native Function Calling:所有型号都支持结构化函数调用,不需要特殊提示词,直接返回JSON格式的工具调用指令。但和 o1、DeepSeek-R1 这类以工具调用见长的模型相比,Gemma 4 的工具调用成功率仍有差距——GitHub 上有用户直接向 Google 官方请求加强工具调用能力(TAU2 基准测试 Gemma 4 31B 为 76.9%,也低于 Qwen 3.5 的 79%)。

  • Per-Layer Embeddings(PLE):每层decoder有独立的embedding表,小参数模型性能提升的重要原因之一。

  • Hybrid Attention:MoE模型使用了局部滑动窗口attention和全局attention混合的设计,保证速度的同时不丢失长上下文理解能力。

  • Shared KV Cache:后几层共享KV张量,长上下文推理时显著降低显存占用。


八、中文支持怎么样——中国用户最关心的问题

Gemma 4 比前代大幅进步,但 Qwen 3.5 在中文上仍然有优势。看数据说话。

Gemma 4 的多语言 benchmark(MMMLU)在31B上拿到了88.4%,这个进步是真实的——Gemma 4 的多语言能力已经不是短板了。

但 AI.rs 的横向评测里说:「Qwen 3.5 仍然保有 multilingual crown(多语言王冠)」。原因有两个:

  • 词表大小:Qwen 3.5 用的是250K词汇表,专门为中文优化。Gemma 4 用的是140+语言混合训练,词表更偏多语言通用,中文词切词效率不如 Qwen。

  • 语言数量:Qwen 3.5 支持201种语言,Gemma 4 支持140+种。Qwen 覆盖的语言更广,尤其是中文方言、特定中文知识等方面,Qwen 的训练数据量和中文占比都更高。

Qwen 是「中文优先」设计,Gemma 4 是「多语言一视同仁」设计。如果主要处理中国本地文化内容、网络用语、中文专业知识,Qwen 3.5 仍然是更稳的选择。

Gemma 4 适合中国用户部署吗?

能部署吗? 完全能。Gemma 4 是完全开源的 Apache 2.0 模型,权重在 HuggingFace 上可以直接下载,不需要联网,不需要 Google 账号,不受任何地区限制。Llama 要担心被美国限制的问题,Gemma 4 没有这个风险。

好用吗? 看做什么。如果主要处理英文任务(写代码、读英文技术文档、英文写作),Gemma 4 在31B这个尺寸上极强。如果主要处理中文内容,Qwen 3.5 目前仍然是更匹配的选择。

一个值得考虑的方案:双模型组合。用 Gemma 4 26B MoE 处理英文代码和复杂推理任务,用 Qwen 3.5 处理中文对话和本地知识。

Gemma 4 的 Thinking Mode 对中文思考链的支持是完整的,模型可以用中文做逐步推理,这对需要看推理过程的用户来说体验会比较好。

总结:

  • 中文能力:Gemma 4 比前代强很多,多语言 benchmark 88.4% 是实打实的进步。但 Qwen 3.5 的中文词表(250K)和中文训练数据量更多,中文场景仍然是 Qwen 主场。

  • 部署友好度:Gemma 4 是纯开源(Apache 2.0),没有任何地区使用限制,对中国开发者非常友好。

  • 推荐策略:纯中文场景继续用 Qwen 3.5;英文为主或者需要强推理/代码能力可以上 Gemma 4;Mac 用户推荐 Gemma 4 26B MoE,本地跑起来很舒服。

参考资料:

  • MMMLU(多语言通用知识):Gemma 4 31B 88.4%,数据来自 Google 官方 model card(ai.google.dev/gemma/docs/core/model_card_4)

  • Qwen 多语言王冠评价:AI.rs 原文「Qwen 3.5 still holds the multilingual crown」——ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared

  • Qwen 词表数据(250K vocab,201语言):github.com/QwenLM/Qwen3.5

  • Gemma 4 多语言支持(140+语言):blog.google/innovation-and-ai/technology/developers-tools/gemma-4/


九、参考资料

  1. Google官方博客 — Gemma 4发布公告

  2. Google DeepMind Gemma 4页面 — 模型家族总览

  3. Google AI Model Card — 技术规格和benchmark数据

  4. AI.rs 横向评测 — Gemma 4 vs Qwen 3.5 vs Llama 4

  5. Maniac.ai 逐尺寸对比 — 按模型尺寸逐行对比,含Arena AI第三方排名

  6. Stable Learn Gemma 4整理版 — 架构详解

  7. LM Studio支持页面 — 本地部署工具支持情况

  8. HuggingFace下载页 — 31B指令微调版下载


开源模型从「差口气」到「真能打」,Gemma 4 用了四代。4000亿参数不是终点,31B也不是起点。参数大小和模型强弱之间的关系,正在被一次又一次地打破。

——写于2026年4月3日,资料核实过,数据有源头,不确定的地方也注明了。如有疏漏欢迎指出。


彩蛋:一个判断

Gemma 4 这个节点,让我想到了一个有意思的类比。

我们现在 AI 算力的发展阶段,有点像早期的大型机时代:

  1. 客户机的配置不可能很高

  2. 它作为终端,必须连接到远程的大型计算机,使用大型机的算力来运算

但电脑发展了几年之后,千家万户都能买 Mac 或 IBM 机子,所有功能在本地就能跑,联网才能用的服务全部进了本地客户端。

对应现在的 AI 时代,我们相当于还在「终端机」阶段。

现在买的 token 都需要云端处理,像在付电费。但这个窗口不会很长——最多十年,会从「终端机」变成「家用机」时代,token 都会在本地运行。

Gemma 4 这样的开源模型出现,正在加速这个进程。