2067
1D
1.51D
V2EX  ›  Local LLM

有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

  •  
  •   2067 · Feb 6, 2025 · 3890 views
    This topic created in 489 days ago, the information mentioned may be changed or developed.
    毕竟从 1.5b 到 70b 的其实都是微调的其他模型,只有 671b 才是新的架构
    19 replies    2025-02-08 05:38:02 +08:00
    Meteora626
        1
    Meteora626  
       Feb 6, 2025
    官网的就 671 ,直接调 api 就知道差距了
    AlohaV2
        2
    AlohaV2  
       Feb 6, 2025
    Mac Studio 192G 万万没想到自己也成为性价比之选
    qxmqh
        3
    qxmqh  
       Feb 6, 2025
    本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。
    huluhulu
        4
    huluhulu  
       Feb 6, 2025
    差距非常大,R1 很强,用过 R1 已经不想用其它 API 了
    Solix
        5
    Solix  
       Feb 6, 2025
    富哥也部署不起,全球能部署的就那么几家
    Liftman
        6
    Liftman  
       Feb 6, 2025
    这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。
    securityCoding
        7
    securityCoding  
       Feb 6, 2025
    官网不就是满血版。。。
    cat
        8
    cat  
       Feb 6, 2025
    好奇 671b 满血版需要什么硬件才能跑得动?只满足一个人使用
    qxmqh
        9
    qxmqh  
       Feb 6, 2025
    @cat 1T 内存和双 H100 80G 显卡 五万块钱差不多就够了。
    qxmqh
        10
    qxmqh  
       Feb 6, 2025
    @qxmqh 50 万。
    stefanaka
        11
    stefanaka  
       Feb 6, 2025
    @qxmqh #9 两张卡肯定不够
    azhangbing
        12
    azhangbing  
       Feb 6, 2025
    @cat h200 20GB 4b 六张 h100 应该够 可能要两百多万 404g 好像 这样的话就需要 21 张 H200 em 太贵了
    cat
        13
    cat  
       Feb 6, 2025
    @azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…
    azhangbing
        14
    azhangbing  
       Feb 6, 2025   ❤️ 1
    @cat #13 671b 全量应该是 404G H200 20GB 版本 ,需要 21 张吧 一张你算他 20 万 也要 420 万,实际不止 美国禁令限制到中国的显卡 运过来要花费更多
    nagisaushio
        15
    nagisaushio  
       Feb 6, 2025 via Android
    用 8*3090 跑了 1.58 bit 的 671b 版,跑到 10toks/s ,感觉生成质量基本没有下降
    mingtdlb
        16
    mingtdlb  
       Feb 7, 2025
    nagisaushio
        17
    nagisaushio  
       Feb 7, 2025   ❤️ 1
    zhongdenny
        18
    zhongdenny  
       Feb 8, 2025
    @nagisaushio 你是用 ollama 还是 llama.cpp 来运行的?
    我用了 2.22bit 的版本,llama.cpp ,8 卡 4090 ,跑到 3 token/s 。
    nagisaushio
        19
    nagisaushio  
       Feb 8, 2025 via Android
    @zhongdenny 我是 1.58bit ,llama.cpp ,8 卡 3090 ,10tok/s
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   918 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 52ms · UTC 20:17 · PVG 04:17 · LAX 13:17 · JFK 16:17
    ♥ Do have faith in what you're doing.