KaiWuBOSS's recent timeline updates

KaiWuBOSS

V2EX member #794716, joined on 2026-03-18 09:14:31 +08:00

Today's activity rank 1562

KaiWuBOSS 提问技术话题好玩工作信息交易信息城市相关

全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

Local LLM • KaiWuBOSS • 2h 0m ago • Lastly replied by KaiWuBOSS

我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

Local LLM • KaiWuBOSS • 5h 22m ago • Lastly replied by KaiWuBOSS

» More topics by KaiWuBOSS

KaiWuBOSS's recent replies

2h 0m ago

Replied to a topic by KaiWuBOSS › Local LLM › 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@listenerri 不好做是么？还是实用性不强？

2h 55m ago

Replied to a topic by KaiWuBOSS › Local LLM › 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@WispZhan A 卡老师很牛的，我之前只弄过 N 卡，请问现在模型有适配 A 卡好的么？

3h 17m ago

Replied to a topic by KaiWuBOSS › Local LLM › 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

回过头来看这个帖子怎么写得这么煽动。。。
其实我就是一个人能力不够想找专家帮忙一起写这个项目，我已经有个 MVP
这两天把稳定性跑跑就能发仓库了。

5h 22m ago

Replied to a topic by KaiWuBOSS › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@kubecoder 我印象更新到 0.1.5 之后版本就不用手动安装了。现在版本应该直接可用我把 dll 打包进去了谢谢试用有什么优化建议麻烦随时提

7h 23m ago

Replied to a topic by KaiWuBOSS › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@rechardwong0522 问题是 iso3 不支持（ SM61 ），llama.cpp 的 q4_0 KV cache 在这个量化精度下反而会占更多，加上 SM61 driver overhead ，实测就是过不了。如果实在要跑，试试这个：
kaiwu run Qwen3-30B-A3B-UD-Q3_K_M --ctx-size 4096
回复下为什么标题那个 8G 能跑 30B ，因为 50 显卡支持 iso3 的 turbo 。

12h 57m ago

Replied to a topic by KaiWuBOSS › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@CFM880 这是开源模型通病，调用工具就是差。我正在开发另外一套适配的 coding agent 考虑一起优化这些问题。但是价值可能不太大，这个赛道 hermas 、cc 、codex 已经很成熟了，只是没有专门为开源本地部署做优化。

12h 58m ago

Replied to a topic by KaiWuBOSS › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@hanli 是的，我测试时候遇到的，就是 think 模式很讨厌，但我觉得这个不应该我这个模型部署器应有的功能，应该是 hermas 或者 cc 、cursor 做，我感觉这个功能加进去有点越界了，我现在也深深感觉我这个工具里面那个上下文压缩，我也觉得有点越界，比如 hermas 她本身也有此类功能。

1 day ago

Replied to a topic by KaiWuBOSS › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@zrlhk 说等个三五周吧马上 llamacpp 会和 turbo 合并到时候都有

1 day ago

Replied to a topic by KaiWuBOSS › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@hanli 我拿 4b 模型 qwen 测试过支持 think

1 day ago

Replied to a topic by KaiWuBOSS › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@coefu 这个问题之前确实没想过你提示很到位，我刚搜了下，说 lammacpp 也回复说自己也没搞定。我想了下，cpu 不应该只做存放，应该也要做运算，–– cpu-moe 是支持的。我们计划后面版本验证下，如果 cpu 计算后丢给 gpu 能不能提速，如果最小验证成功我们就上线，具体：
attention 层 → GPU （计算密集）
MoE expert → CPU （并行激活，利用多核）
KV cache 管理 → CPU 异步处理
三者同时跑，不互相等待。现在只是思路，后面看最小验证成功就能上线。

» More replies by KaiWuBOSS