V2EX › diudiuu 的所有回复 › 第 4 页 / 共 24 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3 4 5 6 7 8 9 10 ... 24

❮

❯

20 天前

回复了 Livid 创建的主题 › Planet › 用 Planet 追踪感兴趣的 V2EX 节点更新，然后用 Gemma4 总结或者提问

我看有的人都用到这个 ai 版本了，是内测吗？？
还是 0.22.0 版本我打开得姿势不对

20 天前

回复了 spike0100 创建的主题 › 微信 › 无意中发现微信现在部分支持了 md 格式渲染

@wat4me 没问题，理由充分

20 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam 你这太高级了，现在就是写脚本导出抓取新闻+openclaw ，每隔一段时间就是抓取，然后形成文档，最后整理 ai 分析+我关注的股票，定时发给我，最终还是要靠自己看. 我看不懂股票，两个人合作的，我主要搞 ai 和数据，有另外一个朋友专门看数据，然后修改。

20 天前

回复了 spike0100 创建的主题 › 微信 › 无意中发现微信现在部分支持了 md 格式渲染

@wat4me 你怎么得出这个结论的，还是不用的微信特供版

20 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam 你可以买那个 mac studio,还能当个常用的开发工具,这个建议你还是不要了,你真的想要可以买 github copilot pro,那个把高级额度用完可以用 chatgpt 5 mini,随便用,这个线上再烂也比本地的强.

我这个 dgx spark 现在就是跑了一个本地模型算股票,没有其他任何作用

21 天前

回复了 yifangtongxing28 创建的主题 › MacBook Pro › 站在目前来说，你倾向 48g 的还是 64g 的 macbook pro

@yifangtongxing28 跑的 26b 的一个 18g ，最简单的方式就是你看下载的模型大小，直接加就行了，能简单算出来

比如 gemma4:26b 18g ，32g mac 电脑，本身占 11g + 18g ，差不多都在 29g-30g ，再加上推理要用的，之能更大

速度我看下来以只要内存后，出 token 都差别不是很大，我试了一个 gemma4:e4b 9g ，跟上面 18g 都是 25 token/s ，区别不是很大

21 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam 摸石头过河，没人教啊，自己知道一点，比如 ollama 部署，但是吧实际效果非常不好，
然后就找原因，看到 cpp 和 vllm ，对比看具体原因，cpp 方式论坛里特别多，就抄了

后面才知道的 tensorrtllm ，现在很多人一股脑都是 ollama ，具体问题具体分析吧

多交流相互学习提升

21 天前

回复了 yifangtongxing28 创建的主题 › MacBook Pro › 站在目前来说，你倾向 48g 的还是 64g 的 macbook pro

48 吧我 m4 搞得 32 这会用的时候还是有点吃力，主要是上本地模型了，昨天去以旧换新，旧的折算 5000 ，算了讲究用吧

21 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam
这个说的 vllm ，我个人理解总体是提高并发了
vllm > llama.cpp >>>> ollama 玩具

这台机子 DGX Spark 具体问题，建议去这里找
https://forums.developer.nvidia.com/t/pre-installed-ollama-configuration/349480/12

vllm 和 sglang 我在论坛里面有看过，还是用 llama.cpp 方式去部署了
https://2libra.com/post/ai-applications/vc337z0 这个是我详细部署 oss 120b 的帖子

部署 minamax2.5 也是在 nvidia 论坛里面找到的原帖子，懒得记录了，参数略多

21 天前

回复了 xgq89757 创建的主题 › MacBook Pro › AI 工具泛滥的时代， 16G 的 macbook 还够用吗

没有 ai 你 16g 也是闹着玩呢

22 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam 没有试过,cpp 论坛里面例子最多,问题基本都解决了.

https://github.com/NVIDIA/TensorRT-LLM 你可以看看这个,英伟达专门出的

22 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam lm studio 这个你也不要试了达不到顶级的,这个里面设置的参数仿佛是假的

22 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam

22 天前

回复了 diudiuu 创建的主题 › Local LLM › [求助] DGX Spark 上 Ollama 推理极慢，改用 llama.cpp 部署是否更合适？

@enihcam ollama 不用这个,老老实实用 cpp 安装,性能达到最高,现在装的是 minimax 2.5 的 200b 左右的
上面那个大哥已经分析过了,可以看这个帖子 https://www.v2ex.com/t/1126516

23 天前

回复了 unt 创建的主题 › Local LLM › Gemma 4 31B 大概什么水平，本地部署是不是又成为现实了

@coefu 等老哥你发帖子评价一下这个

23 天前

回复了 unt 创建的主题 › Local LLM › Gemma 4 31B 大概什么水平，本地部署是不是又成为现实了

@lambdaX999 可以玩下 minmax2.5 你这个都玩过 gptoss120b, 109g 那个.我现在那台机子上装的这个模型,只跑了一个模型,最近再看这个

我现在用 mac m4 32g 尝试跑了一下这个 26b a4b,每秒大概 25 个 token
等一手 mlx 版本的,再看看风评,最后再看换不换模型

24 天前

回复了 zhouhuab 创建的主题 › 程序员 › 现在 session 是主流还是 jwt + refresh token 是主流？

自己控制上两个结合

24 天前

回复了 unt 创建的主题 › Local LLM › Gemma 4 31B 大概什么水平，本地部署是不是又成为现实了

ollama 咋都是这个部署,这个软件能测个啥

25 天前

回复了 imherer 创建的主题 › 买买买 › 5k 以内的扫地机器人推荐

都是智商税

25 天前

回复了 ww050312 创建的主题 › 酷工作 › 日本乐天 Rakuten 内推（可国内直投，包 relocation）

都不会的要吗

1 2 3 4 5 6 7 8 9 10 ... 24

❮

❯