目前性能/资源消耗最高的 70 以下中小开源模型是哪几个？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 575 days ago, the information mentioned may be changed or developed.

拿自己电脑跑，处理分析自然语言数据（中文）
硬件是 1080TI 显卡
首先，不管参数多少，必须要量化到 4bit ，然后用 llama.cpp 跑，下面说的都是 4BIT 量化后用 llama.cpp 跑的表现
70B 往上的模型，应该都无缘。就算能跑起来，推理速度也是个大的问题。或者大家看有没有更好的部署方案

上午测试了一些 10B 以下的模型，表现较好的有下面三个：
Qwen2.5-7B-Instruct: 10B 以下，表现最好
Gemma 2 9b It SimPO：缺点是经常会夹杂英文单词。普林斯顿的 NLP 小组微调出来的，看照片和人名清单，一堆 Chinese
Yi-1.5-9B-Chat：表现次于 Qwen2.5-7B

其它的，比如 MiniXXXX-4B ，只能说是个“玩具”，离“工具”的差距还不小
还有一些模型，目的似乎只是研究，只能冲冲排行榜

正在下几个 1XB 和 3XB 的模型，下午继续测试

看大家有没有推荐的

Supplement 1 · Oct 24, 2024

最后选择了 gemma 2 9b it 4bit

模型

测试

量化

1 replies • 2024-10-14 14:16:37 +08:00

kevan

Oct 14, 2024

试试 B 站的 Index-1.9B-Chat-GGUF 4bit 版本，我觉得还可以

目前 性能/资源消耗 最高的 70 以下中小开源模型是哪几个？

目前性能/资源消耗最高的 70 以下中小开源模型是哪几个？