V2EX › KaiWuBOSS 的所有回复 › 第 1 页 / 共 3 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3

❮

❯

12 小时 46 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@listenerri 不好做是么？还是实用性不强？

13 小时 41 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

@WispZhan A 卡老师很牛的，我之前只弄过 N 卡，请问现在模型有适配 A 卡好的么？

14 小时 3 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 全球本地部署开发者们一起，打造一个真正属于开源社区的 Coding Agent 了

回过头来看这个帖子怎么写得这么煽动。。。
其实我就是一个人能力不够想找专家帮忙一起写这个项目，我已经有个 MVP
这两天把稳定性跑跑就能发仓库了。

16 小时 8 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@kubecoder 我印象更新到 0.1.5 之后版本就不用手动安装了。现在版本应该直接可用我把 dll 打包进去了谢谢试用有什么优化建议麻烦随时提

18 小时 9 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@rechardwong0522 问题是 iso3 不支持（ SM61 ），llama.cpp 的 q4_0 KV cache 在这个量化精度下反而会占更多，加上 SM61 driver overhead ，实测就是过不了。如果实在要跑，试试这个：
kaiwu run Qwen3-30B-A3B-UD-Q3_K_M --ctx-size 4096
回复下为什么标题那个 8G 能跑 30B ，因为 50 显卡支持 iso3 的 turbo 。

23 小时 43 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@CFM880 这是开源模型通病，调用工具就是差。我正在开发另外一套适配的 coding agent 考虑一起优化这些问题。但是价值可能不太大，这个赛道 hermas 、cc 、codex 已经很成熟了，只是没有专门为开源本地部署做优化。

23 小时 45 分钟前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@hanli 是的，我测试时候遇到的，就是 think 模式很讨厌，但我觉得这个不应该我这个模型部署器应有的功能，应该是 hermas 或者 cc 、cursor 做，我感觉这个功能加进去有点越界了，我现在也深深感觉我这个工具里面那个上下文压缩，我也觉得有点越界，比如 hermas 她本身也有此类功能。

1 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@zrlhk 说等个三五周吧马上 llamacpp 会和 turbo 合并到时候都有

1 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@hanli 我拿 4b 模型 qwen 测试过支持 think

1 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@coefu 这个问题之前确实没想过你提示很到位，我刚搜了下，说 lammacpp 也回复说自己也没搞定。我想了下，cpu 不应该只做存放，应该也要做运算，–– cpu-moe 是支持的。我们计划后面版本验证下，如果 cpu 计算后丢给 gpu 能不能提速，如果最小验证成功我们就上线，具体：
attention 层 → GPU （计算密集）
MoE expert → CPU （并行激活，利用多核）
KV cache 管理 → CPU 异步处理
三者同时跑，不互相等待。现在只是思路，后面看最小验证成功就能上线。

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@diudiuu 你的分析基本正确：
带宽是 decode 阶段的瓶颈
31B dense bf16 理论值就是 4-5 tok/s
llama.cpp 跑到 2.5 tok/s 是正常的（未充分优化）

但有两个方向可以突破：

1. 换 Gemma 4 26B MoE 版本
同等文件大小，速度快 6 倍（实测 70 tok/s ）
因为每次 token 只激活 4B 参数

2. 降量化
BF16 → Q4_K_M：约 11 tok/s
BF16 → NVFP4 （ DGX Spark 支持）：约 52 tok/s

Kaiwu 的原理就是自动做这些判断：
识别 dense vs MoE
根据带宽选最优量化
找到速度/质量/上下文的最优平衡

对 DGX Spark 这种统一内存架构
Kaiwu 会把它当高带宽设备处理
自动选更高精度的量化（不需要 q4_0 ）

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@ravecn2014 claude 发现个方法我马上试试:
v0.1.9 — 多卡 tensor split 优化多卡 tensor split 从纯按显存比例改为按显存×带宽加权。异构多卡（如 3090+4090+5060 ）分配更合理——弱卡少分层，不拖慢整体多卡显示改为逐卡列出（型号、显存、带宽、分配比例）
--fit on 现在对 full_gpu 和 moe_offload 两种模式都无条件启用（之前 fallback 路径的 moe_offload 漏了）加速特性显示新增 tensor split 比例（多卡无 NVLink 时）

老师麻烦等我 0.1.9 编译好发布再测试一遍应该能好如果不行告诉我我跟进

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@ravecn2014 仍然是多显卡问题这方面还得再优化我想想有没有更好方法

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@ImINH 嗯很好的建议之前就希望有专家能给建议我周一来整我还不知道什么 tg 我还只会 qq.vx

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@CFM880 url: http://127.0.0.1:11435/responses

这是 OpenAI 新版 API 的端点
Responses API （ 2025 年新增）
用于流式响应的新格式

Kaiwu 的 proxy 只实现了：
/v1/chat/completions ✅
/v1/models ✅

没有实现：
/responses ❌

用户用的客户端（可能是新版 Cursor 或 Claude Code ）
在调用新的 /responses 端点
Kaiwu proxy 不认识这个路径，返回 404 我马上来优化麻烦看到 0.1.7 发布后再试试谢谢了

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@shen09darkareas 谢谢提醒我马上把 dll 加进去就不折腾用户了

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@kubecoder 哥你重新更新下 0.1.6 看看问题还在不记得再次使用记得要 reset

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@ImINH 嗯 ai 自己写的没用别人的架构一直在修有兴趣参与管理吗

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@diudiuu 请问是用过 kaiwu 对比过的吗

2 天前

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

0.1.5 已经更新修复 n 卡 sm 版本适应性问题另外读取带宽对小旧老显卡进行了优化

1 2 3

❮

❯