V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  KaiWuBOSS  ›  全部回复第 1 页 / 共 3 页
回复总数  46
1  2  3  
@listenerri 不好做是么?还是实用性不强?
@WispZhan A 卡老师很牛的,我之前只弄过 N 卡,请问现在模型有适配 A 卡好的么?
回过头来看 这个帖子怎么写得这么煽动。。。
其实我就是一个人能力不够想找专家帮忙一起写这个项目,我已经有个 MVP
这两天把稳定性跑跑就能发仓库了。
@kubecoder 我印象更新到 0.1.5 之后版本就不用手动安装了。现在版本应该直接可用我把 dll 打包进去了 谢谢试用 有什么优化建议麻烦随时提
@rechardwong0522 问题是 iso3 不支持( SM61 ),llama.cpp 的 q4_0 KV cache 在这个量化精度下反而会占更多,加上 SM61 driver overhead ,实测就是过不了。如果实在要跑,试试这个:
kaiwu run Qwen3-30B-A3B-UD-Q3_K_M --ctx-size 4096
回复下为什么标题那个 8G 能跑 30B ,因为 50 显卡支持 iso3 的 turbo 。
@CFM880 这是开源模型通病,调用工具就是差。我正在开发另外一套适配的 coding agent 考虑一起优化这些问题。但是价值可能不太大,这个赛道 hermas 、cc 、codex 已经很成熟了,只是没有专门为开源本地部署做优化。
@hanli 是的 ,我测试时候遇到的,就是 think 模式很讨厌,但我觉得这个不应该我这个模型部署器应有的功能,应该是 hermas 或者 cc 、cursor 做,我感觉这个功能加进去有点越界了,我现在也深深感觉我这个工具里面那个上下文压缩,我也觉得有点越界,比如 hermas 她本身也有此类功能。
@zrlhk 说等个三五周吧 马上 llamacpp 会和 turbo 合并 到时候都有
@hanli 我拿 4b 模型 qwen 测试过 支持 think
@coefu 这个问题之前确实没想过你提示很到位,我刚搜了下,说 lammacpp 也回复说自己也没搞定。 我想了下,cpu 不应该只做存放,应该也要做运算,–– cpu-moe 是支持的。我们计划后面版本验证下,如果 cpu 计算后丢给 gpu 能不能提速,如果最小验证成功我们就上线,具体:
attention 层 → GPU (计算密集)
MoE expert → CPU (并行激活,利用多核)
KV cache 管理 → CPU 异步处理
三者同时跑,不互相等待。现在只是思路,后面看最小验证成功就能上线。
@diudiuu 你的分析基本正确:
带宽是 decode 阶段的瓶颈
31B dense bf16 理论值就是 4-5 tok/s
llama.cpp 跑到 2.5 tok/s 是正常的(未充分优化)

但有两个方向可以突破:

1. 换 Gemma 4 26B MoE 版本
同等文件大小,速度快 6 倍(实测 70 tok/s )
因为每次 token 只激活 4B 参数

2. 降量化
BF16 → Q4_K_M:约 11 tok/s
BF16 → NVFP4 ( DGX Spark 支持):约 52 tok/s

Kaiwu 的原理就是自动做这些判断:
识别 dense vs MoE
根据带宽选最优量化
找到速度/质量/上下文的最优平衡

对 DGX Spark 这种统一内存架构
Kaiwu 会把它当高带宽设备处理
自动选更高精度的量化(不需要 q4_0 )
@ravecn2014 claude 发现个方法 我马上试试:
v0.1.9 — 多卡 tensor split 优化多卡 tensor split 从纯按显存比例改为按 显存×带宽 加权。异构多卡(如 3090+4090+5060 )分配更合理——弱卡少分层,不拖慢整体多卡显示改为逐卡列出(型号、显存、带宽、分配比例)
--fit on 现在对 full_gpu 和 moe_offload 两种模式都无条件启用(之前 fallback 路径的 moe_offload 漏了)加速特性显示新增 tensor split 比例(多卡无 NVLink 时)

老师麻烦等我 0.1.9 编译好发布再测试一遍 应该能好 如果不行告诉我我跟进
@ravecn2014 仍然是多显卡问题 这方面还得再优化 我想想有没有更好方法
@ImINH 嗯 很好的建议 之前就希望有专家能给建议 我周一来整 我还不知道什么 tg 我还只会 qq.vx
@CFM880 url: http://127.0.0.1:11435/responses

这是 OpenAI 新版 API 的端点
Responses API ( 2025 年新增)
用于流式响应的新格式

Kaiwu 的 proxy 只实现了:
/v1/chat/completions ✅
/v1/models ✅

没有实现:
/responses ❌

用户用的客户端(可能是新版 Cursor 或 Claude Code )
在调用新的 /responses 端点
Kaiwu proxy 不认识这个路径,返回 404 我马上来优化 麻烦看到 0.1.7 发布后再试试 谢谢了
@shen09darkareas 谢谢提醒 我马上把 dll 加进去 就不折腾用户了
@kubecoder 哥 你重新更新下 0.1.6 看看问题还在不 记得再次使用记得要 reset
@ImINH 嗯 ai 自己写的 没用别人的架构 一直在修 有兴趣参与管理吗
@diudiuu 请问是用过 kaiwu 对比过的吗
0.1.5 已经更新 修复 n 卡 sm 版本适应性问题 另外读取带宽 对小旧老显卡进行了优化
1  2  3  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3184 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 00:25 · PVG 08:25 · LAX 17:25 · JFK 20:25
♥ Do have faith in what you're doing.