KaiWuBOSS's recent timeline updates
KaiWuBOSS

KaiWuBOSS

V2EX member #794716, joined on 2026-03-18 09:14:31 +08:00
Today's activity rank 1562
KaiWuBOSS's recent replies
@listenerri 不好做是么?还是实用性不强?
@WispZhan A 卡老师很牛的,我之前只弄过 N 卡,请问现在模型有适配 A 卡好的么?
回过头来看 这个帖子怎么写得这么煽动。。。
其实我就是一个人能力不够想找专家帮忙一起写这个项目,我已经有个 MVP
这两天把稳定性跑跑就能发仓库了。
@kubecoder 我印象更新到 0.1.5 之后版本就不用手动安装了。现在版本应该直接可用我把 dll 打包进去了 谢谢试用 有什么优化建议麻烦随时提
@rechardwong0522 问题是 iso3 不支持( SM61 ),llama.cpp 的 q4_0 KV cache 在这个量化精度下反而会占更多,加上 SM61 driver overhead ,实测就是过不了。如果实在要跑,试试这个:
kaiwu run Qwen3-30B-A3B-UD-Q3_K_M --ctx-size 4096
回复下为什么标题那个 8G 能跑 30B ,因为 50 显卡支持 iso3 的 turbo 。
@CFM880 这是开源模型通病,调用工具就是差。我正在开发另外一套适配的 coding agent 考虑一起优化这些问题。但是价值可能不太大,这个赛道 hermas 、cc 、codex 已经很成熟了,只是没有专门为开源本地部署做优化。
@hanli 是的 ,我测试时候遇到的,就是 think 模式很讨厌,但我觉得这个不应该我这个模型部署器应有的功能,应该是 hermas 或者 cc 、cursor 做,我感觉这个功能加进去有点越界了,我现在也深深感觉我这个工具里面那个上下文压缩,我也觉得有点越界,比如 hermas 她本身也有此类功能。
@zrlhk 说等个三五周吧 马上 llamacpp 会和 turbo 合并 到时候都有
@hanli 我拿 4b 模型 qwen 测试过 支持 think
@coefu 这个问题之前确实没想过你提示很到位,我刚搜了下,说 lammacpp 也回复说自己也没搞定。 我想了下,cpu 不应该只做存放,应该也要做运算,–– cpu-moe 是支持的。我们计划后面版本验证下,如果 cpu 计算后丢给 gpu 能不能提速,如果最小验证成功我们就上线,具体:
attention 层 → GPU (计算密集)
MoE expert → CPU (并行激活,利用多核)
KV cache 管理 → CPU 异步处理
三者同时跑,不互相等待。现在只是思路,后面看最小验证成功就能上线。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3202 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 13:39 · PVG 21:39 · LAX 06:39 · JFK 09:39
♥ Do have faith in what you're doing.