workbest
V2EX  ›  Local LLM

qwen 本地大模型的问题

  •  
  •   workbest · Apr 2 · 1344 views
    This topic created in 64 days ago, the information mentioned may be changed or developed.

    我的机器是 M1 Pro ,32G 内存,部署本地模型主要是两个需求:

    1. 翻译
    2. 总结并做简单的分析提取内容

    我一开始使用的是 qwen3.5-9b 和 qwen3.5-4b 的模型,测试的时候,可以用,但是在实际跑起来的时候,发现 qwen 会无限思考,经常 10 分钟都没有任何响应;后来换成了 qwen3-4b 的模型,效果比较好,很少出现无限思考的问题

    4 replies    2026-05-25 20:59:36 +08:00
    lagrange7
        1
    lagrange7  
       Apr 2
    是不是启动的时候设定不思考,会好一些?
    xiaoz
        2
    xiaoz  
       Apr 2 via Android
    你直接调用参数里面设置下禁止思考呗。
    workbest
        3
    workbest  
    OP
       Apr 2
    没有 disable 思考,设置了 最大思考 token ,没用
    ahdw
        4
    ahdw  
       May 25   ❤️ 1
    用 oMLX ,然后 32GB RAM 可以很舒服地跑 gemma-4-26b-a4b-fp16 了,你选一下 oQ8 量化配短一点的上下文,或者 oQ4 量化,跑 32K 以上的上下文。

    M1 和 M2 系列的 GPU 没有 bf16 格式的硬件加速,所以关键不在量化,在 fp16 上,能显著提升 PP 和 TG 的速度。

    另外,Dflash 和 MTP 对 M1 系列来说,基本上净收益为负,不用浪费时间了。

    Qwen3.6-35b-a3b 比那个 9B 模型强,你都有 32GB RAM 了,没必要用它了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3139 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 03:37 · PVG 11:37 · LAX 20:37 · JFK 23:37
    ♥ Do have faith in what you're doing.