V2EX › nanshan2012 的所有回复 › 第 1 页 / 共 1 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

4 月 30 日

回复了 diudiuu 创建的主题 › Local LLM › 自己做了一款在线 GPU 推理速度计算器 · TPS Calculator

@diudiuu 不错不错，修正之后正常了，牛！！！

4 月 30 日

回复了 KaiWuBOSS 创建的主题 › Local LLM › 我做了个工具让 8GB 显卡跑 30B 模型从 3 tok/s 提到 21 tok/s，记录一下技术发现

@KaiWuBOSS 使用 V0.26 版本是正常的，使用 V0.31 版本就出现报错了，请大神看看

本地大模型部署器 vv0.3.1 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce RTX 4060 Laptop GPU (SM89, 8188 MB VRAM, 272 GB/s)
RAM: 95 GB DDR5
OS: windows amd64

[2/6] Selecting configuration...
Model: Qwen3.6-35B-A3B (moe, 38B total / 1B active)
Quant: Q4_K_M (20.6 GB)
Mode: moe_partial
Accel: Flash Attention + SWA-Full (hybrid arch)

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: Qwen3.6-35B-A3B-UD-Q4_K_M.gguf [cached]

[4/6] Preflight check...
✓ VRAM sufficient

[5/6] Warmup benchmark...
旧缓存格式，重新探测
Probe 1: ctx=256K ... OOM
Probe 2: ctx=128K ... OOM
Probe 3: ctx=64K ... OOM
Probe 4: ctx=32K ... OOM
Probe 5: ctx=16K ... OOM
Probe 6: ctx=8K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足，降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败，即使最小上下文(4K)也无法运行

NVIDIA GeForce RTX 4060 Laptop GPU: 8188 MB VRAM
模型 Qwen3.6-35B-A3B: ~21104 MB
KV cache (4K, q4_0): ~80 MB
预估总需: ~22208 MB

差额: 14020 MB

建议:
1. 选择更小的量化 (Q4_K_M 或 Q2_K)
2. 选择更小的模型

Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小（ 0=自动）
--fast Skip warmup, use cached profile
-h, --help help for run
--host string 监听地址（默认 127.0.0.1 ，用 0.0.0.0 开放局域网） (default "127.0.0.1")
--llama-server string 使用自定义 llama-server 二进制（完整路径）
--mode string 模式选择: speed/balanced/context （默认用上次选择）
--reset 清除缓存，重新 warmup 探测最优参数

4 月 29 日

回复了 diudiuu 创建的主题 › Local LLM › 自己做了一款在线 GPU 推理速度计算器 · TPS Calculator

做得不错，提点建议。

在显存为 8G 的 4060 GPU 上跑 Qwen 3.6 35B MoE 模型，通过 offload 方式可以实现吞吐量在 20 token/s 以上，但网页提示的信息似乎有出入，请确认。

2025 年 4 月 15 日

回复了 IndexOutOfBounds 创建的主题 › 奇思妙想 › 如果有这么一个信息流管理工具，你们会用吗

加油，腾讯公众号内容也覆盖上

2023 年 3 月 28 日

回复了 poyanhu 创建的主题 › 推广 › GPT4 上线，送 30 张 199 次对话卡密

MTg4MDM3OTZAcXEuY29t