有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

This topic created in 538 days ago, the information mentioned may be changed or developed.

毕竟从 1.5b 到 70b 的其实都是微调的其他模型，只有 671b 才是新的架构

671b

架构

性能

19 replies • 2025-02-08 05:38:02 +08:00

Meteora626

Feb 6, 2025

官网的就 671 ，直接调 api 就知道差距了

AlohaV2

Feb 6, 2025

Mac Studio 192G 万万没想到自己也成为性价比之选

qxmqh

Feb 6, 2025

本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。

huluhulu

Feb 6, 2025

差距非常大，R1 很强，用过 R1 已经不想用其它 API 了

Solix

Feb 6, 2025

富哥也部署不起，全球能部署的就那么几家

Liftman

Feb 6, 2025

这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。

securityCoding

Feb 6, 2025

官网不就是满血版。。。

cat

Feb 6, 2025

好奇 671b 满血版需要什么硬件才能跑得动？只满足一个人使用

qxmqh

Feb 6, 2025

@cat 1T 内存和双 H100 80G 显卡五万块钱差不多就够了。

qxmqh

Feb 6, 2025

@qxmqh 50 万。

stefanaka

Feb 6, 2025

@qxmqh #9 两张卡肯定不够

azhangbing

Feb 6, 2025

@cat h200 20GB 4b 六张 h100 应该够可能要两百多万 404g 好像这样的话就需要 21 张 H200 em 太贵了

cat

Feb 6, 2025

@azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…

azhangbing

Feb 6, 2025

@cat #13 671b 全量应该是 404G H200 20GB 版本，需要 21 张吧一张你算他 20 万也要 420 万，实际不止美国禁令限制到中国的显卡运过来要花费更多

nagisaushio

Feb 6, 2025 via Android

用 8*3090 跑了 1.58 bit 的 671b 版，跑到 10toks/s ，感觉生成质量基本没有下降

mingtdlb

Feb 7, 2025

@nagisaushio 是 ollama 的那个么？ https://ollama.com/library/deepseek-r1:671b

nagisaushio

Feb 7, 2025

@mingtdlb #16 https://unsloth.ai/blog/deepseekr1-dynamic

zhongdenny

Feb 8, 2025

@nagisaushio 你是用 ollama 还是 llama.cpp 来运行的？
我用了 2.22bit 的版本，llama.cpp ，8 卡 4090 ，跑到 3 token/s 。

nagisaushio

Feb 8, 2025 via Android

@zhongdenny 我是 1.58bit ，llama.cpp ，8 卡 3090 ，10tok/s