本地部署的小模型（小于 16G 显存）适合轻任务，哪一个模型比较好用？

This topic created in 504 days ago, the information mentioned may be changed or developed.

有一个 16G 显存的显卡闲置，跑了几个模型，测试过一阵子了。

 $ ollama list
NAME                     ID              SIZE    
llama3.1:latest          46e0c10c039e    4.9 GB
gemma2:latest            ff02c3702f32    5.4 GB
deepseek-coder-v2:16b    63fb193b3a9b    8.9 GB

具体的任务是内容标题生成和翻译。

llama3.1 是 8b 参数，gemmma2 是 9b ，deepseek-coder-v2 是 16b 。

内容标题生成来讲，不是很能对比出差别。因为生成的标题即使有偏差也大差不差。但是对于翻译，需要一定的翻译质量。

对于翻译来讲 deepseek-coder-v2 > gemma2 > llama3.1 。

平时用到的翻译是 Bob 翻译+沉浸式翻译，用的还挺频繁的。

所以大家还有什么小一点的模型推荐跑一跑试一下？主要做一些小任务。

Llama3.1

gemma2

Deepseek-Coder-V2

13 replies • 2025-03-08 22:31:46 +08:00

forgottencoast

Mar 8, 2025

微软好像有好几个小模型。

tozp

Mar 8, 2025

微软刚发布的 phi4-mini 3.8b 是目前效果最好的小模型，可以去看 hf 介绍，我在 Orin Nano 上部署了一个用，很不错。

lchynn

Mar 8, 2025

@tozp phi4-mini 这个审核太过分了, 让它模拟川普口吻写一个发言稿, 立刻拒绝了, 特么美国粉红模型啊

BernieDu

Mar 8, 2025

小模型肯定是新出的 qwq32 最好，不过 ollama 默认 q4 需要 20g 显存，你可以等等看有没有人量化 q2 的

Kinnikuman

Mar 8, 2025

$ ollama run phi4
pulling manifest
pulling fd7b6731c33c... 54% ▕███████████████████████████████████ ▏ 4.9 GB/9.1 GB 104 MB/s 44s

@tozp 我试试这个 phi4

listenfree

Mar 8, 2025

Q2 量化，我测试了，很不好使

wwhc

Mar 8, 2025

推荐 Qwen2.5-14B-Instruct-1M-Q5_K_L.gguf 或 Qwen2.5-7B-Instruct-1M-Q6_K_L.gguf ，不建议 Distill 版本，Distill 版本更于擅长于解决推理或数学问题。另外建议直接使用 llama.cpp

Leon6868

Mar 8, 2025

Qwen2.5 14B .不要用 QwQ ，QwQ 是刷分模型

tabc2tgacd

Mar 8, 2025

@BernieDu q4 量化后的效果并不好，ollama 提供的就是这种，我昨天测试直接一直卡在思考中了

uncleroot

Mar 8, 2025

中英翻译和取标题，Qwen 系列应该是开源系列效果最好的。

mU9vX912XopmAoE1

Mar 8, 2025

@tozp
@BernieDu

https://huggingface.co/spaces/Jellyfish042/UncheatableEval

根據這邊的榜單，最好的是 Llama-3.2-3B 第二 Qwen2.5-3B 第三 RWKV-x070-World-2.9B-v3-20250211-ctx4096

mortal

Mar 8, 2025 via iPhone

我用 glm-4-9b

tool2dx

Mar 8, 2025 via Android

@tozp 测试了一下，好强。能秒一堆低参数模型，差不多赶上 deepseek 14b 了。