在生成文本时,理论上可以比现在的版本快 4 倍。
本地运行步骤:
https://unsloth.ai/docs/models/diffusiongemma
目前 V2EX Chat 用的模型就是 gemma4:26b 。
在生成文本时,理论上可以比现在的版本快 4 倍。
本地运行步骤:
https://unsloth.ai/docs/models/diffusiongemma
目前 V2EX Chat 用的模型就是 gemma4:26b 。
1
Parva 1 day ago
端侧模型和扩散 LLM 像是找到了彼此的最佳舞台。
|
2
coefu 23h 30m ago
qwen 这次估计要落后 Gemma 团队了,Gemma 总能整出一些新活儿。😂
|
3
commoccoom 21h 58m ago
Q4 模型都是 16G 的,8G 显存跑不动啊
|
4
jackOff 21h 33m ago
这些模型如果可以 32G CPU 流畅跑就好了
|
5
kennylam777 20h 41m ago
@coefu 我倒希望 Qwen 繼續開源跟 Gemma 一拼, Google 沒對手的話就不會放新模型了
正如以前用 RTX 5090 都沒有一個本地模型能 agentic coding, 大部分都倒在了第一個 failed tool call 上, 倒是 Qwen 3.5 27B 出來後才算有一個能用 |
6
kennylam777 20h 32m ago
不過我記得第一個實作 Diffusion Language Model 的是這個 HKU 團隊, 那時他們家的 Sudoku 的解題特別強。
https://github.com/HKUNLP/DiffuLLaMA 玩過 DiffuLLaMA Demo 很有趣, Diffsuion 文字輸出是先把句子長度固定, 然後內容再走出來, 先畫靶再射箭的感覺, 不是 Autoregressive 的書寫次序, 但那時字(token)蹦出來後就不會再動。 這次 DiffusionGemma 更有趣的是內容還會在 render 過程中變動, 我倒期待 Llama-Server 的實作出來是如何的, 如果 Sudoku 強的話可能龍蝦一類 vision+computer use 的用途會有驚喜? |
7
drymonfidelia 20h 27m ago
想知道 V2EX Chat 的版本是站长 self-hosted 的么
|
8
crocoBaby 20h 23m ago
还不能生成图片或者视频
|
9
Slengl 20h 12m ago
2 句话达到上限
|
10
Livid MOD OP PRO @drymonfidelia DGX Spark
|
11
BingoXuan 20h 2m ago
|
12
zhaiduo 19h 31m ago via Android
如果 chat 搞成大模型中转站就好了哈哈
|
13
kennylam777 18h 54m ago
@BingoXuan Gemma 4 這次很給力吧, reddit 上不少人都同意文字類答案比 Qwen 3.6 好, Qwen 3.6 是英語及中文很強, 但 Gemma 4 的廣東話及繁體字比 Qwen 3.6 強超多, Gemma 4 31B 在 agentic coding 用廣東話對答如流, Qwen 3.6 就會用簡體中文標準漢語回應, 也有一些 benchmark 說 Gemma 4 31B 比 Qwen3.6 27B 在 coding planing 更細密。
Qwen 3.6 是絶代的話就慘了, Google 不會放更好的模型出來, 畢竟 Qwen 還是很能打我也是 Gemma 4 及 Qwen 3.6 兩個模型都有在用。 @Livid 怪不得會選 26B A4B MoE, memory bandwidth 擺在那 TPS 是壓力, 反而我好奇的是 Qwen 3.6 35B A3B 的簡中應該也很強, 速度更快, 選用 Gemma 4 26B A4B 的選因是? |
14
BingoXuan 17h 1m ago
@kennylam777
我在 OpenRouter 测试时候,使用同样的 skill ,Gemma4 31B 不能一次完成任务,Qwen3.6 27B 反而可以。本地跑 27B Q6_K 质量不输 OpenRouter FP8 。未试过本地部署 Gemma 31B ,有空再测试一下。目前日常使用 PI+27B 体感上不输给 Codex 5.4 High 。本来还想开一个 Pro ,看来现在完全无必要。 另外如果按你所说,那么 Gemma 31B 的表现可以推算出其本身是为了泛用而训练的。训练语料并没有偏重在 coding 方面。 现在大厂都选择闭源来实现更高利润率,最近几个月开源模型越来越少。尤其是 3.7 系列推出那么久都没有任何开源模型就说明 3.6 27B 大概率绝唱。而且 0.8B/4B/9B 也没有后续了。AI 真实成本远比现在使用 coding plan 或者 api 更贵。开源沦为赚取名声的途径。 |
15
coefu 16h 58m ago @BingoXuan
@kennylam777 qwen3.6 27B 是真正的能打,我现在日常主力了。能感觉到,这个模型之后,这个板块沉寂了很长一段时间,恐怕大家都是偷着乐的。 27B 真正能打,是因为它在 27B 这样的参数下,能搞到惊人的 64 层 dense ,模型的宽和深,有个奇妙的组合甜点位。只顾宽不顾深,就只有广博知识面,但是缺乏逻辑深度和缜密,只知道夸夸其谈,经不起推敲。只有深度,没有宽度就是个诡辩的杠精。但是 27B 兼顾了知识面的广度和逻辑的深度,但是如果再增参数和深度,本地部署又失去了可能。巨大的参数所产生的 kvcache ,以及 agent 模式下 context 的反复进出,单卡带宽完全跟不上,就算是 gmem/umem 的容量够,attention 的 O(n²) 也是无解的。 可能是绝唱,也可能是当下开源的极限。 |
17
coefu 16h 50m ago
Diffusion 这条路,依然没有解决当前 LLM prefill 里 超长 context 说带来的 attention O(n²) 消耗。只是在 token generator 上做了加速的文章。但是当前 agent 模式的瓶颈,已经不在 token generator 。
解决 prefill 的 attention O(n²) ,依然任重道远。 主要是信息论里,对 过去 context 的压缩 是否能保证完全无损,这是当前很长时间内的根本矛盾。 |
18
commoccoom 16h 47m ago
@coefu 啥配置能主力跑 Qwen3.6 27B
|
19
coefu 16h 40m ago
@commoccoom 如果你的经济阔绰,我推荐 NVIDIA RTX PRO 6000 Blackwell (96GB),虽然带宽只有 1.1TB/s ,但是由于 Nvidia cuda 的极致优化,prefill 依然很能打,最主要的是 kvcache ,模型本身大概 36G ,你可以有 60G 左右跑 context ,Q8 的情况下,263k 跑满,还能开 2 parallel 。
如果你经济有限,我推荐 mac ultra ,可以是 64G ,但是 96G 或者 128G 更好。把 context 搞成 Q4 ,跑 263k 也是 ok 的。只是越往后越慢,但是依靠模型本身的能力,慢点也能完成任务。 |
20
commoccoom 16h 37m ago
@coefu 好的,感谢。
|
21
kennylam777 16h 35m ago
@BingoXuan 我是 Codex 及 Antigravity 雙持的, 都是 USD20 等級的套餐, 但自從我本地有 Qwen 3.6 27B (Q5_K_XL Weights, Q8 K/V, MTP)後, 有一次我兩家的 agent 都跑到 debug 一半沒了 quota 很焦慮。
還好之前有練過用本地跑 VSCode Copilo 及 Claude Code, 拿 Qwen 3.6 27B 給我上還真的能把事情做好。 這時候我就深深感受到這東西會減少人們對 Subscriptions 及 API 的依賴, 很佛心但也會影響利潤吧。 |
22
kennylam777 16h 26m ago
@commoccoom 我單張 RTX5090, Q3.6 27B Q5_K_XL 用以上配置能跑 context 102400, 56tps
另外我還有兩張 RTX3090 的 NVLink 能跑 Gemma 4 31B Q8, F16 K/V, ctx 51200, 55-60tps, 但現在要買 3090 及它的 NVLink 應該不容易。 聽說有人在淘寶魔改了 V100 能插 PCIe 及多卡 NVLink, 但這種魔改的東西除非你對 inference 很有經驗, 否則不建議用。也有些人用舊款 AMD MI50 32GB 去組多卡, 但好像 llama.cpp 沒直接支援要用改版的, 也不太建議用。 RTX6000 Pro 的 96GB VRAM 及超大 bandwidth 肯定是單卡最強的民用產品 32GB 的新品好像還有 Intel Arc Pro B70, 比 RTX5090 便宜不少, 但這個 llama.cpp 的支援可能不完整, vllm 倒是有 Intel 自己的版本有維護能配 Qwen 3.5 |
23
commoccoom 16h 9m ago
@kennylam777 没这么高的硬件,我得先去云服务商开个 GPU 云试试效果😂
|
24
BingoXuan 16h 0m ago
@coefu
但不得不说,阿里的确做出了很不一样的东西。27B 给人的感觉就是在知识面和逻辑和权重大小做了一个很好的平衡。而且训练时候加入 MTP 在本地部署极佳。同时也给人感觉出道即巅峰。这个板块沉寂另外一个原因可能大家有更多时间去做 harness ,而不是部署测试各种模型上。 @kennylam777 我给 Codex 5.4 High 和 27B 给出三个不同的 bug 。27B 可以找到两个(虽然费思考),但 Codex 反而职能找到 1 个。其实本地模型利好 Nvidia 这些硬件厂商,但 Nemotron 系列差强人意。我自己用 RTX Pro 4500 部署,Q6 加上 MTP 有 50tps 。日常使用来说非常流畅。唯一慢的地方是我。哈哈哈哈哈 |
25
kennylam777 15h 50m ago
@BingoXuan Nemotron Nano 還真的不太行, Ultra 出來了好像也不太有性價比, 550B 等級的中國模型比它強。
btw, MTP 在 Coding agent 上加速效果挺明顯的, 我想是算 diff 一類能搬字過紙的任務上猜得到就能過, Gemma 4 31B Q4 在 5090 我試過能跑到最高 90tps, 反而 Qwen 3.6 27B 我都沒仔細看過最高 tps 但真的要快的話, 把 Qwen 3.6 35B 灌下去, tokens 嘩啦嘩啦就跑一堆出來還算爽的, max tps 過 130, 簡單任務也算能用 |
26
coefu 15h 32m ago
@kennylam777 还是 你有钱啊。
|
27
phinex 7h 56m ago
主要是换了底层架构之后 对硬件性能要求没那么高了
|