Gemma4 12b 居然比 Qwen3.5 9b 还快，意料不到

This topic created in 49 days ago, the information mentioned may be changed or developed.

显卡只是 3080 显存 10G ，之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ，今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗？测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑？

llama-server.exe ^
--model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^
--mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^
--model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^
--spec-type draft-mtp --spec-draft-n-max 3 ^
--spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^
--n-gpu-layers-draft 999 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--n-gpu-layers 999 ^
--no-mmap ^
--cache-prompt ^
--mlock ^
--kv-unified ^
--parallel 1 ^
-fa on ^
--fit off ^
--ctx-size 100000 --n-predict 10000 ^
--host 0.0.0.0 --port 11432

Gemma4

Qwen3.5

速度

3 replies • 2026-06-11 14:56:13 +08:00

coefu

Jun 10

因为 gemma4 12B 有 48 层，qwen3.5 9B 只有 32 层。层深度决定了逻辑的缜密性。

lifechan

Jun 11 via Android

3080 16g 可以上 16b 嗎

lifechan

Jun 11 via Android

@lifechan 抱歉……查了一下 gemma 沒有 16b