发布于：2026-04-05更新于：2026-04-05

Gemma 4：谷歌开源31B干翻4000亿，Mac Mini就能跑

就在前两天，Google DeepMind CEO Demis Hassabis 发了一条推文，AI圈炸锅了。

Gemma 4 来了。

31B参数，开源，Apache 2.0协议，Mac Mini能跑，打爆4000亿参数的巨无霸。

Google之前开源过 Gemma，但一直差点意思——参数小、 benchmark 打不过竞品、许可证也一堆破事。这次全改了。

一、四个型号，总有一款适合你

Gemma 4 发了四个型号，从手机到工作站都能跑：

E2B（2.3B有效参数 / 5.1B含词表）——手机、树莓派。带原生音频，128K上下文。ARM设备上跑实时语音AI没问题。
E4B（4.5B有效参数 / 8B含词表）——笔记本、边缘设备。同样带音频，128K上下文。
26B MoE（总26B，激活4B）——这次最亮眼的型号。MoE架构，推理时只激活3.8B参数，速度约等于4B模型，质量接近26B。256K上下文。Mac Mini 24GB内存可以流畅跑。
31B Dense（30.7B）——满血版工作站旗舰。256K上下文，不带音频但视觉理解拉满。H100单卡可以跑bf16精度，消费级显卡量化后也能跑。

E2B/E4B的E是 effective（有效参数），实际推理时embedding层加起来是5.1B和8B。这种设计与Per-Layer Embeddings（PLE，每层独立embedding表）技术有关，专门优化端侧内存效率。

二、跨代飞跃——数字有多炸

Gemma 4 直接把上一代的短板全补上了，还顺带翻倍。

数学（AIME 2026 no-tools）：20.8% → 89.2%，提升了68.4个百分点。翻了超过4倍。上一代基本做不了竞赛数学题，Gemma 4 能做出接近满分。
代码（LiveCodeBench v6）：29.1% → 80.0%，提升50.9个百分点。上一代代码能力约等于新手，Gemma 4 已经可以当半个Code Assistant用了。
研究生级科学推理（GPQA Diamond）：42.4% → 84.3%，提升41.9个百分点。考的是博士级别科学问题，Gemma 4 能答对八成以上。
BigBench Extra Hard：19.3% → 74.4%，提升55.1个百分点。需要多步推理的复杂任务，提升幅度极大。
上下文记忆（MRCR v2，128K长文本检索）：13.5% → 66.4%，提升52.9个百分点。上一代的长上下文基本是假的——能接收但用不好。Gemma 4 的256K上下文是真实可用的。
Codeforces ELO：110 → 2150。110分约等于刚学会编程，2150分约等于有竞赛经验的程序员。这个跨越在开源模型里极为罕见。

资料来源：Google官方model card（ai.google.dev/gemma/docs/core/model_card_4），Stable Learn整理版（stable-learn.com/en/gemma-4-model-card/），AI.rs横向评测（ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared）

三、Arena AI 排行榜——第三方怎么说

Google自己吹不算数，来看看第三方。Arena AI是众包聊天偏好排行榜，模型不知道自己在被比较，是目前最接近真实使用体验的排名。

截至2026年3月31日（数据来源：Maniac.ai引用Arena AI页面，maniac.ai/blog/qwen-3-5-vs-gemma-4-benchmarks-by-size）：

模型	Arena AI排名	Elo分数
Gemma 4 31B	#3开源模型	1452 ± 9
Qwen3.5-397B-A17B	#4	1449 ± 6
Gemma 4 26B MoE	#6	1441 ± 9
Qwen3.5-122B-A10B	—	1416 ± 6
Qwen3.5-27B	—	1404 ± 6
Qwen3.5-35B-A3B	—	1400 ± 6

Arena AI是聊天偏好排名，和静态benchmark不完全相关。但它说明了一个事实：在真实对话场景下，Gemma 4 的大模型已经可以和4000亿参数的Qwen掰手腕了。

四、跟 Qwen 3.5 比怎么样——同尺寸正面battle

Maniac.ai做了非常详细的同尺寸横向对比，把model card里两者都发布的benchmark拿来逐行比。结论比较微妙，不是「谁全面碾压谁」那么简单。

31B vs 27B（工作站旗舰档）

Benchmark	Gemma 4 31B	Qwen3.5-27B	谁赢
MMLU-Pro（通用知识推理）	85.2%	86.1%	Qwen小幅领先
GPQA Diamond（研究生科学）	84.3%	85.5%	Qwen小幅领先
LiveCodeBench v6（代码）	80.0%	80.7%	几乎相同
TAU2（Agent工具调用）	76.9%	79.0%	Qwen领先
MMMLU（多语言）	88.4%	85.9%	Gemma领先
MMMU-Pro（多模态）	76.9%	75.0%	Gemma领先

静态benchmark Qwen略优，但差距极小；多语言和多模态Gemma反超。这个尺寸两家打得有来有回。

26B MoE vs 35B MoE（消费级MoE档）

这是Gemma最亮眼的档位。26B MoE推理只激活3.8B参数，但质量达到了31B dense的97%：

Benchmark	Gemma 4 26B MoE	Gemma 4 31B Dense
MMLU-Pro	82.6%	85.2%
AIME 2026	88.3%	89.2%
LiveCodeBench v6	77.1%	80.0%
Arena AI排名	1441	1452（只差11分）

花4B模型的推理成本，拿到31B模型97%的质量。这个效率比任何Dense模型都强。

对比同类的Qwen3.5-35B-A3B（激活3B参数）：Arena AI里Gemma 26B MoE（1441）领先Qwen 35B MoE（1400）41分，差距明显。

E2B / E4B（小模型档）

这个档位比较意外：Qwen 3.5 在多数benchmark上领先。

E4B（4B） vs Qwen3.5-4B：Qwen在MMLU-Pro（79.1% vs 69.4%）、GPQA（76.2% vs 58.6%）、LiveCodeBench（55.8% vs 52.0%）、TAU2（79.9% vs 42.2%）上全面领先。
E2B（2B） vs Qwen3.5-2B：同样的趋势，Qwen在3/4个overlap benchmark上领先。

Gemma E2B/E4B的优势是：原生音频支持（Qwen小模型没有）、Google移动生态（Android AICore）、128K上下文。

结论：小模型党如果纯看文本benchmark，Qwen 3.5 更强；如果需要音频或者在Android上跑，Gemma E系列是唯一选择。

五、Mac 本地能跑吗

26B MoE（推荐）：Mac Studio M2 Max 64GB 完全没问题，量化后Q4_K_M版本约14GB显存，24GB内存的Mac Mini也能跑。速度大约每秒15-25 tokens。
31B Dense（高性能）：M2 Max跑Q4量化约20GB内存，需要32GB内存的机器才比较流畅。
E4B（笔记本日常）：任何有16GB内存的MacBook都能跑，8GB显存也够。适合日常对话、文案、代码补全。

推荐工具：LM Studio（图形界面）、Ollama（命令行）、llama.cpp（原生推理，性能最优）。

六、这次为什么不一样——许可证的意义

Gemma 4 切到了 Apache 2.0——这是什么意思？

随便用：任何商业产品、任何数量、任何场景，完全免费。
随便改：可以修改代码、可以训练、可以蒸馏，不需要通知Google。
随便分发：可以做成SaaS、可以做成API服务、可以集成进别人的产品，不需要开源衍生代码。

对比 Qwen 3.5：也是 Apache 2.0，两家打平。

对比 Llama 4：Community License，700M MAU上限 + Meta Acceptable Use Policy，商用有诸多限制。Gemma 4 的许可证反而比 Llama 4 更宽松。

对于想做独立开发、AI产品创业的人来说，Gemma 4 基本上没有法律风险了。

七、还有一些值得关注的技术细节

Thinking Mode（思考模式）：Gemma 4 支持链式推理，模型会在回答前输出内部思考过程，最长可达4000+ tokens。类似 DeepSeek-R1 和 OpenAI o1 的技术路线，是这次数学和代码能力大幅提升的关键。
Native Function Calling：所有型号都支持结构化函数调用，不需要特殊提示词，直接返回JSON格式的工具调用指令。但和 o1、DeepSeek-R1 这类以工具调用见长的模型相比，Gemma 4 的工具调用成功率仍有差距——GitHub 上有用户直接向 Google 官方请求加强工具调用能力（TAU2 基准测试 Gemma 4 31B 为 76.9%，也低于 Qwen 3.5 的 79%）。
Per-Layer Embeddings（PLE）：每层decoder有独立的embedding表，小参数模型性能提升的重要原因之一。
Hybrid Attention：MoE模型使用了局部滑动窗口attention和全局attention混合的设计，保证速度的同时不丢失长上下文理解能力。
Shared KV Cache：后几层共享KV张量，长上下文推理时显著降低显存占用。

八、中文支持怎么样——中国用户最关心的问题

Gemma 4 比前代大幅进步，但 Qwen 3.5 在中文上仍然有优势。看数据说话。

Gemma 4 的多语言 benchmark（MMMLU）在31B上拿到了88.4%，这个进步是真实的——Gemma 4 的多语言能力已经不是短板了。

但 AI.rs 的横向评测里说：「Qwen 3.5 仍然保有 multilingual crown（多语言王冠）」。原因有两个：

词表大小：Qwen 3.5 用的是250K词汇表，专门为中文优化。Gemma 4 用的是140+语言混合训练，词表更偏多语言通用，中文词切词效率不如 Qwen。
语言数量：Qwen 3.5 支持201种语言，Gemma 4 支持140+种。Qwen 覆盖的语言更广，尤其是中文方言、特定中文知识等方面，Qwen 的训练数据量和中文占比都更高。

Qwen 是「中文优先」设计，Gemma 4 是「多语言一视同仁」设计。如果主要处理中国本地文化内容、网络用语、中文专业知识，Qwen 3.5 仍然是更稳的选择。

Gemma 4 适合中国用户部署吗？

能部署吗？ 完全能。Gemma 4 是完全开源的 Apache 2.0 模型，权重在 HuggingFace 上可以直接下载，不需要联网，不需要 Google 账号，不受任何地区限制。Llama 要担心被美国限制的问题，Gemma 4 没有这个风险。

好用吗？ 看做什么。如果主要处理英文任务（写代码、读英文技术文档、英文写作），Gemma 4 在31B这个尺寸上极强。如果主要处理中文内容，Qwen 3.5 目前仍然是更匹配的选择。

一个值得考虑的方案：双模型组合。用 Gemma 4 26B MoE 处理英文代码和复杂推理任务，用 Qwen 3.5 处理中文对话和本地知识。

Gemma 4 的 Thinking Mode 对中文思考链的支持是完整的，模型可以用中文做逐步推理，这对需要看推理过程的用户来说体验会比较好。

总结：

中文能力：Gemma 4 比前代强很多，多语言 benchmark 88.4% 是实打实的进步。但 Qwen 3.5 的中文词表（250K）和中文训练数据量更多，中文场景仍然是 Qwen 主场。
部署友好度：Gemma 4 是纯开源（Apache 2.0），没有任何地区使用限制，对中国开发者非常友好。
推荐策略：纯中文场景继续用 Qwen 3.5；英文为主或者需要强推理/代码能力可以上 Gemma 4；Mac 用户推荐 Gemma 4 26B MoE，本地跑起来很舒服。

参考资料：

MMMLU（多语言通用知识）：Gemma 4 31B 88.4%，数据来自 Google 官方 model card（ai.google.dev/gemma/docs/core/model_card_4）
Qwen 多语言王冠评价：AI.rs 原文「Qwen 3.5 still holds the multilingual crown」——ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared
Qwen 词表数据（250K vocab，201语言）：github.com/QwenLM/Qwen3.5
Gemma 4 多语言支持（140+语言）：blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

九、参考资料

Google官方博客 — Gemma 4发布公告
Google DeepMind Gemma 4页面 — 模型家族总览
Google AI Model Card — 技术规格和benchmark数据
AI.rs 横向评测 — Gemma 4 vs Qwen 3.5 vs Llama 4
Maniac.ai 逐尺寸对比 — 按模型尺寸逐行对比，含Arena AI第三方排名
Stable Learn Gemma 4整理版 — 架构详解
LM Studio支持页面 — 本地部署工具支持情况
HuggingFace下载页 — 31B指令微调版下载

开源模型从「差口气」到「真能打」，Gemma 4 用了四代。4000亿参数不是终点，31B也不是起点。参数大小和模型强弱之间的关系，正在被一次又一次地打破。

——写于2026年4月3日，资料核实过，数据有源头，不确定的地方也注明了。如有疏漏欢迎指出。

彩蛋：一个判断

Gemma 4 这个节点，让我想到了一个有意思的类比。

我们现在 AI 算力的发展阶段，有点像早期的大型机时代：

客户机的配置不可能很高
它作为终端，必须连接到远程的大型计算机，使用大型机的算力来运算

但电脑发展了几年之后，千家万户都能买 Mac 或 IBM 机子，所有功能在本地就能跑，联网才能用的服务全部进了本地客户端。

对应现在的 AI 时代，我们相当于还在「终端机」阶段。

现在买的 token 都需要云端处理，像在付电费。但这个窗口不会很长——最多十年，会从「终端机」变成「家用机」时代，token 都会在本地运行。

Gemma 4 这样的开源模型出现，正在加速这个进程。

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。