yuping913
V2EX  ›  Local LLM

Gemma4 12b 居然比 Qwen3.5 9b 还快,意料不到

  •  
  •   yuping913 · 4 days ago · 1417 views
    显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑?

    llama-server.exe ^
    --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^
    --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^
    --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^
    --spec-type draft-mtp --spec-draft-n-max 3 ^
    --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^
    --n-gpu-layers-draft 999 ^
    --cache-type-k q4_0 ^
    --cache-type-v q4_0 ^
    --n-gpu-layers 999 ^
    --no-mmap ^
    --cache-prompt ^
    --mlock ^
    --kv-unified ^
    --parallel 1 ^
    -fa on ^
    --fit off ^
    --ctx-size 100000 --n-predict 10000 ^
    --host 0.0.0.0 --port 11432
    3 replies    2026-06-11 14:56:13 +08:00
    coefu
        1
    coefu  
       4 days ago   ❤️ 2
    因为 gemma4 12B 有 48 层,qwen3.5 9B 只有 32 层。层深度决定了逻辑的缜密性。
    lifechan
        2
    lifechan  
       2 days ago via Android
    3080 16g 可以上 16b 嗎
    lifechan
        3
    lifechan  
       2 days ago via Android
    @lifechan 抱歉……查了一下 gemma 沒有 16b
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   923 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 21:57 · PVG 05:57 · LAX 14:57 · JFK 17:57
    ♥ Do have faith in what you're doing.