Gemma 4:谷歌开源31B干翻4000亿,Mac Mini就能跑
就在前两天,Google DeepMind CEO Demis Hassabis 发了一条推文,AI圈炸锅了。
Gemma 4 来了。
31B参数,开源,Apache 2.0协议,Mac Mini能跑,打爆4000亿参数的巨无霸。
Google之前开源过 Gemma,但一直差点意思——参数小、 benchmark 打不过竞品、许可证也一堆破事。这次全改了。
一、四个型号,总有一款适合你
Gemma 4 发了四个型号,从手机到工作站都能跑:
E2B(2.3B有效参数 / 5.1B含词表)——手机、树莓派。带原生音频,128K上下文。ARM设备上跑实时语音AI没问题。
E4B(4.5B有效参数 / 8B含词表)——笔记本、边缘设备。同样带音频,128K上下文。
26B MoE(总26B,激活4B)——这次最亮眼的型号。MoE架构,推理时只激活3.8B参数,速度约等于4B模型,质量接近26B。256K上下文。Mac Mini 24GB内存可以流畅跑。
31B Dense(30.7B)——满血版工作站旗舰。256K上下文,不带音频但视觉理解拉满。H100单卡可以跑bf16精度,消费级显卡量化后也能跑。
E2B/E4B的E是 effective(有效参数),实际推理时embedding层加起来是5.1B和8B。这种设计与Per-Layer Embeddings(PLE,每层独立embedding表)技术有关,专门优化端侧内存效率。
二、跨代飞跃——数字有多炸
Gemma 4 直接把上一代的短板全补上了,还顺带翻倍。
数学(AIME 2026 no-tools):20.8% → 89.2%,提升了68.4个百分点。翻了超过4倍。上一代基本做不了竞赛数学题,Gemma 4 能做出接近满分。
代码(LiveCodeBench v6):29.1% → 80.0%,提升50.9个百分点。上一代代码能力约等于新手,Gemma 4 已经可以当半个Code Assistant用了。
研究生级科学推理(GPQA Diamond):42.4% → 84.3%,提升41.9个百分点。考的是博士级别科学问题,Gemma 4 能答对八成以上。
BigBench Extra Hard:19.3% → 74.4%,提升55.1个百分点。需要多步推理的复杂任务,提升幅度极大。
上下文记忆(MRCR v2,128K长文本检索):13.5% → 66.4%,提升52.9个百分点。上一代的长上下文基本是假的——能接收但用不好。Gemma 4 的256K上下文是真实可用的。
Codeforces ELO:110 → 2150。110分约等于刚学会编程,2150分约等于有竞赛经验的程序员。这个跨越在开源模型里极为罕见。
资料来源:Google官方model card(ai.google.dev/gemma/docs/core/model_card_4),Stable Learn整理版(stable-learn.com/en/gemma-4-model-card/),AI.rs横向评测(ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared)
三、Arena AI 排行榜——第三方怎么说
Google自己吹不算数,来看看第三方。Arena AI是众包聊天偏好排行榜,模型不知道自己在被比较,是目前最接近真实使用体验的排名。
截至2026年3月31日(数据来源:Maniac.ai引用Arena AI页面,maniac.ai/blog/qwen-3-5-vs-gemma-4-benchmarks-by-size):
| 模型 | Arena AI排名 | Elo分数 |
|---|---|---|
| Gemma 4 31B | #3开源模型 | 1452 ± 9 |
| Qwen3.5-397B-A17B | #4 | 1449 ± 6 |
| Gemma 4 26B MoE | #6 | 1441 ± 9 |
| Qwen3.5-122B-A10B | — | 1416 ± 6 |
| Qwen3.5-27B | — | 1404 ± 6 |
| Qwen3.5-35B-A3B | — | 1400 ± 6 |
Arena AI是聊天偏好排名,和静态benchmark不完全相关。但它说明了一个事实:在真实对话场景下,Gemma 4 的大模型已经可以和4000亿参数的Qwen掰手腕了。
四、跟 Qwen 3.5 比怎么样——同尺寸正面battle
Maniac.ai做了非常详细的同尺寸横向对比,把model card里两者都发布的benchmark拿来逐行比。结论比较微妙,不是「谁全面碾压谁」那么简单。
31B vs 27B(工作站旗舰档)
| Benchmark | Gemma 4 31B | Qwen3.5-27B | 谁赢 |
|---|---|---|---|
| MMLU-Pro(通用知识推理) | 85.2% | 86.1% | Qwen小幅领先 |
| GPQA Diamond(研究生科学) | 84.3% | 85.5% | Qwen小幅领先 |
| LiveCodeBench v6(代码) | 80.0% | 80.7% | 几乎相同 |
| TAU2(Agent工具调用) | 76.9% | 79.0% | Qwen领先 |
| MMMLU(多语言) | 88.4% | 85.9% | Gemma领先 |
| MMMU-Pro(多模态) | 76.9% | 75.0% | Gemma领先 |
静态benchmark Qwen略优,但差距极小;多语言和多模态Gemma反超。这个尺寸两家打得有来有回。
26B MoE vs 35B MoE(消费级MoE档)
这是Gemma最亮眼的档位。26B MoE推理只激活3.8B参数,但质量达到了31B dense的97%:
| Benchmark | Gemma 4 26B MoE | Gemma 4 31B Dense |
|---|---|---|
| MMLU-Pro | 82.6% | 85.2% |
| AIME 2026 | 88.3% | 89.2% |
| LiveCodeBench v6 | 77.1% | 80.0% |
| Arena AI排名 | 1441 | 1452(只差11分) |
花4B模型的推理成本,拿到31B模型97%的质量。这个效率比任何Dense模型都强。
对比同类的Qwen3.5-35B-A3B(激活3B参数):Arena AI里Gemma 26B MoE(1441)领先Qwen 35B MoE(1400)41分,差距明显。
E2B / E4B(小模型档)
这个档位比较意外:Qwen 3.5 在多数benchmark上领先。
E4B(4B) vs Qwen3.5-4B:Qwen在MMLU-Pro(79.1% vs 69.4%)、GPQA(76.2% vs 58.6%)、LiveCodeBench(55.8% vs 52.0%)、TAU2(79.9% vs 42.2%)上全面领先。
E2B(2B) vs Qwen3.5-2B:同样的趋势,Qwen在3/4个overlap benchmark上领先。
Gemma E2B/E4B的优势是:原生音频支持(Qwen小模型没有)、Google移动生态(Android AICore)、128K上下文。
结论:小模型党如果纯看文本benchmark,Qwen 3.5 更强;如果需要音频或者在Android上跑,Gemma E系列是唯一选择。
五、Mac 本地能跑吗
26B MoE(推荐):Mac Studio M2 Max 64GB 完全没问题,量化后Q4_K_M版本约14GB显存,24GB内存的Mac Mini也能跑。速度大约每秒15-25 tokens。
31B Dense(高性能):M2 Max跑Q4量化约20GB内存,需要32GB内存的机器才比较流畅。
E4B(笔记本日常):任何有16GB内存的MacBook都能跑,8GB显存也够。适合日常对话、文案、代码补全。
推荐工具:LM Studio(图形界面)、Ollama(命令行)、llama.cpp(原生推理,性能最优)。
六、这次为什么不一样——许可证的意义
Gemma 4 切到了 Apache 2.0——这是什么意思?
随便用:任何商业产品、任何数量、任何场景,完全免费。
随便改:可以修改代码、可以训练、可以蒸馏,不需要通知Google。
随便分发:可以做成SaaS、可以做成API服务、可以集成进别人的产品,不需要开源衍生代码。
对比 Qwen 3.5:也是 Apache 2.0,两家打平。
对比 Llama 4:Community License,700M MAU上限 + Meta Acceptable Use Policy,商用有诸多限制。Gemma 4 的许可证反而比 Llama 4 更宽松。
对于想做独立开发、AI产品创业的人来说,Gemma 4 基本上没有法律风险了。
七、还有一些值得关注的技术细节
Thinking Mode(思考模式):Gemma 4 支持链式推理,模型会在回答前输出内部思考过程,最长可达4000+ tokens。类似 DeepSeek-R1 和 OpenAI o1 的技术路线,是这次数学和代码能力大幅提升的关键。
Native Function Calling:所有型号都支持结构化函数调用,不需要特殊提示词,直接返回JSON格式的工具调用指令。但和 o1、DeepSeek-R1 这类以工具调用见长的模型相比,Gemma 4 的工具调用成功率仍有差距——GitHub 上有用户直接向 Google 官方请求加强工具调用能力(TAU2 基准测试 Gemma 4 31B 为 76.9%,也低于 Qwen 3.5 的 79%)。
Per-Layer Embeddings(PLE):每层decoder有独立的embedding表,小参数模型性能提升的重要原因之一。
Hybrid Attention:MoE模型使用了局部滑动窗口attention和全局attention混合的设计,保证速度的同时不丢失长上下文理解能力。
Shared KV Cache:后几层共享KV张量,长上下文推理时显著降低显存占用。
八、中文支持怎么样——中国用户最关心的问题
Gemma 4 比前代大幅进步,但 Qwen 3.5 在中文上仍然有优势。看数据说话。
Gemma 4 的多语言 benchmark(MMMLU)在31B上拿到了88.4%,这个进步是真实的——Gemma 4 的多语言能力已经不是短板了。
但 AI.rs 的横向评测里说:「Qwen 3.5 仍然保有 multilingual crown(多语言王冠)」。原因有两个:
词表大小:Qwen 3.5 用的是250K词汇表,专门为中文优化。Gemma 4 用的是140+语言混合训练,词表更偏多语言通用,中文词切词效率不如 Qwen。
语言数量:Qwen 3.5 支持201种语言,Gemma 4 支持140+种。Qwen 覆盖的语言更广,尤其是中文方言、特定中文知识等方面,Qwen 的训练数据量和中文占比都更高。
Qwen 是「中文优先」设计,Gemma 4 是「多语言一视同仁」设计。如果主要处理中国本地文化内容、网络用语、中文专业知识,Qwen 3.5 仍然是更稳的选择。
Gemma 4 适合中国用户部署吗?
能部署吗? 完全能。Gemma 4 是完全开源的 Apache 2.0 模型,权重在 HuggingFace 上可以直接下载,不需要联网,不需要 Google 账号,不受任何地区限制。Llama 要担心被美国限制的问题,Gemma 4 没有这个风险。
好用吗? 看做什么。如果主要处理英文任务(写代码、读英文技术文档、英文写作),Gemma 4 在31B这个尺寸上极强。如果主要处理中文内容,Qwen 3.5 目前仍然是更匹配的选择。
一个值得考虑的方案:双模型组合。用 Gemma 4 26B MoE 处理英文代码和复杂推理任务,用 Qwen 3.5 处理中文对话和本地知识。
Gemma 4 的 Thinking Mode 对中文思考链的支持是完整的,模型可以用中文做逐步推理,这对需要看推理过程的用户来说体验会比较好。
总结:
中文能力:Gemma 4 比前代强很多,多语言 benchmark 88.4% 是实打实的进步。但 Qwen 3.5 的中文词表(250K)和中文训练数据量更多,中文场景仍然是 Qwen 主场。
部署友好度:Gemma 4 是纯开源(Apache 2.0),没有任何地区使用限制,对中国开发者非常友好。
推荐策略:纯中文场景继续用 Qwen 3.5;英文为主或者需要强推理/代码能力可以上 Gemma 4;Mac 用户推荐 Gemma 4 26B MoE,本地跑起来很舒服。
参考资料:
MMMLU(多语言通用知识):Gemma 4 31B 88.4%,数据来自 Google 官方 model card(ai.google.dev/gemma/docs/core/model_card_4)
Qwen 多语言王冠评价:AI.rs 原文「Qwen 3.5 still holds the multilingual crown」——ai.rs/ai-developer/gemma-4-vs-qwen-3-5-vs-llama-4-compared
Qwen 词表数据(250K vocab,201语言):github.com/QwenLM/Qwen3.5
Gemma 4 多语言支持(140+语言):blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
九、参考资料
Google官方博客 — Gemma 4发布公告
Google DeepMind Gemma 4页面 — 模型家族总览
Google AI Model Card — 技术规格和benchmark数据
AI.rs 横向评测 — Gemma 4 vs Qwen 3.5 vs Llama 4
Maniac.ai 逐尺寸对比 — 按模型尺寸逐行对比,含Arena AI第三方排名
Stable Learn Gemma 4整理版 — 架构详解
LM Studio支持页面 — 本地部署工具支持情况
HuggingFace下载页 — 31B指令微调版下载
开源模型从「差口气」到「真能打」,Gemma 4 用了四代。4000亿参数不是终点,31B也不是起点。参数大小和模型强弱之间的关系,正在被一次又一次地打破。
——写于2026年4月3日,资料核实过,数据有源头,不确定的地方也注明了。如有疏漏欢迎指出。
彩蛋:一个判断
Gemma 4 这个节点,让我想到了一个有意思的类比。
我们现在 AI 算力的发展阶段,有点像早期的大型机时代:
客户机的配置不可能很高
它作为终端,必须连接到远程的大型计算机,使用大型机的算力来运算
但电脑发展了几年之后,千家万户都能买 Mac 或 IBM 机子,所有功能在本地就能跑,联网才能用的服务全部进了本地客户端。
对应现在的 AI 时代,我们相当于还在「终端机」阶段。
现在买的 token 都需要云端处理,像在付电费。但这个窗口不会很长——最多十年,会从「终端机」变成「家用机」时代,token 都会在本地运行。
Gemma 4 这样的开源模型出现,正在加速这个进程。