DiffusionGemma

Livid · 2026-06-10T18:52:48Z

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ 在生成文本时，理论上可以比现在的版本快 4 倍。本地运行步骤： https://unsloth.ai/docs/models/diffusiongemma 目前 V2EX Chat 用的模型就是 gemma4:26b 。 https://edge.v2ex.com/chat

生成

文本

模型

31 replies • 2026-06-12 10:28:41 +08:00

1

Parva

Jun 11

端侧模型和扩散 LLM 像是找到了彼此的最佳舞台。

2

coefu

Jun 11

qwen 这次估计要落后 Gemma 团队了，Gemma 总能整出一些新活儿。😂

3

commoccoom

Jun 11

Q4 模型都是 16G 的，8G 显存跑不动啊

4

jackOff

Jun 11

这些模型如果可以 32G CPU 流畅跑就好了

5

kennylam777

Jun 11

@coefu 我倒希望 Qwen 繼續開源跟 Gemma 一拼, Google 沒對手的話就不會放新模型了

正如以前用 RTX 5090 都沒有一個本地模型能 agentic coding, 大部分都倒在了第一個 failed tool call 上, 倒是 Qwen 3.5 27B 出來後才算有一個能用

6

kennylam777

Jun 11

不過我記得第一個實作 Diffusion Language Model 的是這個 HKU 團隊, 那時他們家的 Sudoku 的解題特別強。
https://github.com/HKUNLP/DiffuLLaMA

玩過 DiffuLLaMA Demo 很有趣, Diffsuion 文字輸出是先把句子長度固定, 然後內容再走出來, 先畫靶再射箭的感覺, 不是 Autoregressive 的書寫次序, 但那時字(token)蹦出來後就不會再動。

這次 DiffusionGemma 更有趣的是內容還會在 render 過程中變動, 我倒期待 Llama-Server 的實作出來是如何的, 如果 Sudoku 強的話可能龍蝦一類 vision+computer use 的用途會有驚喜?

7

drymonfidelia

Jun 11

想知道 V2EX Chat 的版本是站长 self-hosted 的么

8

crocoBaby

Jun 11

还不能生成图片或者视频

9

Slengl

Jun 11

2 句话达到上限

10

Livid

MOD

OP

PRO

Jun 11

@drymonfidelia DGX Spark

11

BingoXuan

Jun 11

@coefu
Qwen 感觉应该是放弃开源了，虽然 Gemma 开源比不上 Qwen ，但在现在这种环境下，真的是贵在坚持和创新

@kennylam777
现在 3.6 27B 还不错，但是怕是绝唱了

12

zhaiduo

Jun 11 via Android

如果 chat 搞成大模型中转站就好了哈哈

13

kennylam777

Jun 11

@BingoXuan Gemma 4 這次很給力吧, reddit 上不少人都同意文字類答案比 Qwen 3.6 好, Qwen 3.6 是英語及中文很強, 但 Gemma 4 的廣東話及繁體字比 Qwen 3.6 強超多, Gemma 4 31B 在 agentic coding 用廣東話對答如流, Qwen 3.6 就會用簡體中文標準漢語回應, 也有一些 benchmark 說 Gemma 4 31B 比 Qwen3.6 27B 在 coding planing 更細密。

Qwen 3.6 是絶代的話就慘了, Google 不會放更好的模型出來, 畢竟 Qwen 還是很能打我也是 Gemma 4 及 Qwen 3.6 兩個模型都有在用。

@Livid 怪不得會選 26B A4B MoE, memory bandwidth 擺在那 TPS 是壓力, 反而我好奇的是 Qwen 3.6 35B A3B 的簡中應該也很強, 速度更快, 選用 Gemma 4 26B A4B 的選因是?

14

BingoXuan

Jun 11

@kennylam777
我在 OpenRouter 测试时候，使用同样的 skill ，Gemma4 31B 不能一次完成任务，Qwen3.6 27B 反而可以。本地跑 27B Q6_K 质量不输 OpenRouter FP8 。未试过本地部署 Gemma 31B ，有空再测试一下。目前日常使用 PI+27B 体感上不输给 Codex 5.4 High 。本来还想开一个 Pro ，看来现在完全无必要。

另外如果按你所说，那么 Gemma 31B 的表现可以推算出其本身是为了泛用而训练的。训练语料并没有偏重在 coding 方面。

现在大厂都选择闭源来实现更高利润率，最近几个月开源模型越来越少。尤其是 3.7 系列推出那么久都没有任何开源模型就说明 3.6 27B 大概率绝唱。而且 0.8B/4B/9B 也没有后续了。AI 真实成本远比现在使用 coding plan 或者 api 更贵。开源沦为赚取名声的途径。

15

coefu

Jun 11

1

@BingoXuan
@kennylam777

qwen3.6 27B 是真正的能打，我现在日常主力了。能感觉到，这个模型之后，这个板块沉寂了很长一段时间，恐怕大家都是偷着乐的。

27B 真正能打，是因为它在 27B 这样的参数下，能搞到惊人的 64 层 dense ，模型的宽和深，有个奇妙的组合甜点位。只顾宽不顾深，就只有广博知识面，但是缺乏逻辑深度和缜密，只知道夸夸其谈，经不起推敲。只有深度，没有宽度就是个诡辩的杠精。但是 27B 兼顾了知识面的广度和逻辑的深度，但是如果再增参数和深度，本地部署又失去了可能。巨大的参数所产生的 kvcache ，以及 agent 模式下 context 的反复进出，单卡带宽完全跟不上，就算是 gmem/umem 的容量够，attention 的 O(n²) 也是无解的。

可能是绝唱，也可能是当下开源的极限。

16

coefu

Jun 11

@BingoXuan Gemma4 31B 擅长的是 stem 的理论逻辑。coding 确实不如 qwen3.6 27B 。

17

coefu

Jun 11

Diffusion 这条路，依然没有解决当前 LLM prefill 里超长 context 说带来的 attention O(n²) 消耗。只是在 token generator 上做了加速的文章。但是当前 agent 模式的瓶颈，已经不在 token generator 。

解决 prefill 的 attention O(n²) ，依然任重道远。主要是信息论里，对过去 context 的压缩是否能保证完全无损，这是当前很长时间内的根本矛盾。

18

commoccoom

Jun 11

@coefu 啥配置能主力跑 Qwen3.6 27B

19

coefu

Jun 11

@commoccoom 如果你的经济阔绰，我推荐 NVIDIA RTX PRO 6000 Blackwell (96GB)，虽然带宽只有 1.1TB/s ，但是由于 Nvidia cuda 的极致优化，prefill 依然很能打，最主要的是 kvcache ，模型本身大概 36G ，你可以有 60G 左右跑 context ，Q8 的情况下，263k 跑满，还能开 2 parallel 。

如果你经济有限，我推荐 mac ultra ，可以是 64G ，但是 96G 或者 128G 更好。把 context 搞成 Q4 ，跑 263k 也是 ok 的。只是越往后越慢，但是依靠模型本身的能力，慢点也能完成任务。

20

commoccoom

Jun 11

@coefu 好的，感谢。

21

kennylam777

Jun 11

@BingoXuan 我是 Codex 及 Antigravity 雙持的, 都是 USD20 等級的套餐, 但自從我本地有 Qwen 3.6 27B (Q5_K_XL Weights, Q8 K/V, MTP)後, 有一次我兩家的 agent 都跑到 debug 一半沒了 quota 很焦慮。

還好之前有練過用本地跑 VSCode Copilo 及 Claude Code, 拿 Qwen 3.6 27B 給我上還真的能把事情做好。

這時候我就深深感受到這東西會減少人們對 Subscriptions 及 API 的依賴, 很佛心但也會影響利潤吧。

22

kennylam777

Jun 11

@commoccoom 我單張 RTX5090, Q3.6 27B Q5_K_XL 用以上配置能跑 context 102400, 56tps

另外我還有兩張 RTX3090 的 NVLink 能跑 Gemma 4 31B Q8, F16 K/V, ctx 51200, 55-60tps, 但現在要買 3090 及它的 NVLink 應該不容易。

聽說有人在淘寶魔改了 V100 能插 PCIe 及多卡 NVLink, 但這種魔改的東西除非你對 inference 很有經驗, 否則不建議用。也有些人用舊款 AMD MI50 32GB 去組多卡, 但好像 llama.cpp 沒直接支援要用改版的, 也不太建議用。

RTX6000 Pro 的 96GB VRAM 及超大 bandwidth 肯定是單卡最強的民用產品

32GB 的新品好像還有 Intel Arc Pro B70, 比 RTX5090 便宜不少, 但這個 llama.cpp 的支援可能不完整, vllm 倒是有 Intel 自己的版本有維護能配 Qwen 3.5

23

commoccoom

Jun 11

@kennylam777 没这么高的硬件，我得先去云服务商开个 GPU 云试试效果😂

24

BingoXuan

Jun 11

@coefu
但不得不说，阿里的确做出了很不一样的东西。27B 给人的感觉就是在知识面和逻辑和权重大小做了一个很好的平衡。而且训练时候加入 MTP 在本地部署极佳。同时也给人感觉出道即巅峰。这个板块沉寂另外一个原因可能大家有更多时间去做 harness ，而不是部署测试各种模型上。

@kennylam777
我给 Codex 5.4 High 和 27B 给出三个不同的 bug 。27B 可以找到两个（虽然费思考），但 Codex 反而职能找到 1 个。其实本地模型利好 Nvidia 这些硬件厂商，但 Nemotron 系列差强人意。我自己用 RTX Pro 4500 部署，Q6 加上 MTP 有 50tps 。日常使用来说非常流畅。唯一慢的地方是我。哈哈哈哈哈

25

kennylam777

Jun 11

@BingoXuan Nemotron Nano 還真的不太行, Ultra 出來了好像也不太有性價比, 550B 等級的中國模型比它強。

btw, MTP 在 Coding agent 上加速效果挺明顯的, 我想是算 diff 一類能搬字過紙的任務上猜得到就能過, Gemma 4 31B Q4 在 5090 我試過能跑到最高 90tps, 反而 Qwen 3.6 27B 我都沒仔細看過最高 tps

但真的要快的話, 把 Qwen 3.6 35B 灌下去, tokens 嘩啦嘩啦就跑一堆出來還算爽的, max tps 過 130, 簡單任務也算能用

26

coefu

Jun 11

@kennylam777 还是你有钱啊。

27

phinex

Jun 11

主要是换了底层架构之后对硬件性能要求没那么高了

28

diudiuu

Jun 12

gemma4:26b 处理文本总结一把好手，写代码还有数据计算类的推理，简直一言难尽.
我用本地模型帮别人考试，一般语言问答题，本地都能考高分
考到那种数学计算等，就没过过

站长你这个 dgx 跑这个模型，输出的 token/s 是多少

29

Livid

MOD

OP

PRO

Jun 12 via iPhone

@diudiuu 没有测过，你一般用什么工具测？

30

diudiuu

Jun 12

@Livid #29 没有用啥高级的工具，我是用 llama.cpp 方式部署的
直接可以用它带的网页聊天就可以看见 token/s

还有一个比较准确的方式，开始测试聊天，把从开始聊天到结束聊天的日志导出来，直接让 ai 分析，里面就有思考每秒生成 token 数，真实吐出的 token 数

你要 vllm 方式，就不是很清楚

31

zzutmebwd

Jun 12

@coefu 你看下跑分呢，gemma4 原版都干不过 qwen3.6 ，这个 diffusiongemma 更笨了...不是新的就是好