qwen 本地大模型的问题

This topic created in 116 days ago, the information mentioned may be changed or developed.

我的机器是 M1 Pro ，32G 内存，部署本地模型主要是两个需求：

翻译
总结并做简单的分析提取内容

我一开始使用的是 qwen3.5-9b 和 qwen3.5-4b 的模型，测试的时候，可以用，但是在实际跑起来的时候，发现 qwen 会无限思考，经常 10 分钟都没有任何响应；后来换成了 qwen3-4b 的模型，效果比较好，很少出现无限思考的问题

qwen

翻译

总结

4 replies • 2026-05-25 20:59:36 +08:00

1

lagrange7

Apr 2

是不是启动的时候设定不思考，会好一些？

2

xiaoz

Apr 2 via Android

你直接调用参数里面设置下禁止思考呗。

3

workbest

OP

Apr 2

没有 disable 思考，设置了最大思考 token ，没用

4

ahdw

May 25

1

用 oMLX ，然后 32GB RAM 可以很舒服地跑 gemma-4-26b-a4b-fp16 了，你选一下 oQ8 量化配短一点的上下文，或者 oQ4 量化，跑 32K 以上的上下文。

M1 和 M2 系列的 GPU 没有 bf16 格式的硬件加速，所以关键不在量化，在 fp16 上，能显著提升 PP 和 TG 的速度。

另外，Dflash 和 MTP 对 M1 系列来说，基本上净收益为负，不用浪费时间了。

Qwen3.6-35b-a3b 比那个 9B 模型强，你都有 32GB RAM 了，没必要用它了。