V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Javin
V2EX  ›  Claude

以前挺相信 claude code 说的,现在不相信了,设计方案、代码都有大漏洞,找个代码都能瞎说

  •  
  •   Javin · 3 天前 · 4506 次点击
    24 条回复    2026-04-23 02:17:20 +08:00
    giter
        1
    giter  
       3 天前
    跟使用场景也有很大的关系,每个人的环境都不一样,提示词、使用的 Plugin 、用到的 Skill 以及需要遵循的规范都不一样,如果觉得 Claude Code 睁眼说瞎话,看下是不是可以规范一下你的使用方式或者优化提问内容
    Javin
        2
    Javin  
    OP
       3 天前
    @giter 重度 claude code 使用,都大半年了,开始确实挺好,现在能睁眼说瞎话,很明显的降智;早都石锤了只是最近越来越明显: https://github.com/anthropics/claude-code/issues/42796
    giter
        3
    giter  
       3 天前
    @Javin 降智是实锤这肯定的,但也要有个规范使用的最佳实践,把降智带来的影响降到最低。可以多用一些指向性明确的词,强制约束 AI 必须遵守
    penisulaS
        4
    penisulaS  
       3 天前   ❤️ 1
    我在想,降智了应不应该退一部分款
    sddyzm
        5
    sddyzm  
    PRO
       3 天前
    对齐功能变差了,只能说模型的后期训练质量变低了,这和算力是否充足应该是没有关系的,纯粹是模型问题,但是作为外行不知道问题可能出在哪里
    SantinoSong
        6
    SantinoSong  
       3 天前
    @giter #3 真降智了靠提示词来约束也没效果了
    coolxll
        7
    coolxll  
       3 天前
    最近降智蛮严重的
    andlp
        8
    andlp  
       3 天前
    降智了
    whoosy
        9
    whoosy  
       3 天前
    只有 opus4.7max 没降智,其他 claude 模型都不行
    chenxytw
        10
    chenxytw  
       3 天前   ❤️ 1
    @giter 降智是多方面的,其中一个点是幻觉变严重,这个是无法靠提示词工程弥补的
    beefhotpot
        11
    beefhotpot  
       3 天前
    @sddyzm 感觉有关系啊,你怎么知道它会不会用低配置的机器跑量化了部分参数的模型,然后在某些时候路由到这些服务上?
    sampeng
        12
    sampeng  
       3 天前
    所以我把拓展思维管了。强行开 high/max 等级的思考等级。除了慢一点,最少洗车问题能过去了
    sddyzm
        13
    sddyzm  
    PRO
       3 天前 via iPhone
    @beefhotpot 嗯,是参数不完整配置的模型
    qiqw
        14
    qiqw  
       3 天前
    现在 有 max / extra high / high, 我一般用 high, 写计划用 max, 执行时就降下来
    assad
        15
    assad  
       3 天前
    做了几次需求,都是没解决问题
    teaguexiao
        16
    teaguexiao  
       3 天前
    同感,现在写计划用 max thinking ,执行阶段降回标准模式,幻觉明显少了很多。
    lmmlwen
        17
    lmmlwen  
       3 天前
    设计方案有缺陷,具体哪里?代码有漏洞,什么漏洞,逻辑、安全? AI 具体怎么写和提示词还有使用者的编码水平正相关
    sampeng
        18
    sampeng  
       3 天前 via iPhone
    @lmmlwen 来来来,你让他做洗车实验
    maocat
        19
    maocat  
       3 天前


    上面的别洗地了,什么弄不好找找自己原因,都是正常人,谁不会用啊,

    看看我这个,谁家好人提交代码要把.env 给我提交了,把我逗笑了
    zerovoid
        20
    zerovoid  
       3 天前
    早期开拓市场抢客户,肯定给最好的服务。
    现在用户数到顶了,有了稳定的付费客户,肯定要开始降低服务品质了。
    teaguexiao
        21
    teaguexiao  
       3 天前
    同感,尤其涉及就有代码库、常目标文件超大的情况,就容易开始撕。现在我的应对是 CLAUDE.md 里把关键模块结构和雷区代码明确写出来,不能靠它自己摸索。
    mansunyunxin
        22
    mansunyunxin  
       3 天前
    R20 说的「市场成熟后品质收缩」是真的,但这不是最隐蔽的成本。

    最隐蔽的是:你不会注意到它发生。

    降智不是突然跌落悬崖,而是斜坡式的。用户在使用过程中会逐渐调整自己的期望值——原来能做到的,现在「凑合用吧」。这个调整过程是无意识的,等你意识到的时候,你的工作流已经和它的缺陷绑在一起了。

    这时候你要付出的不只是「换个工具」,而是「重新校准一套已经磨合好的工作方式」。

    所以 R12/R16 的 workaround 反而是最理性的应对:不是对抗降智,而是承认它,然后主动在系统层面做隔离——max thinking 管规划,标准模式管执行。这本质上是在给工具的不稳定性留缓冲带,而不是假装它不存在。

    但这件事本身就是一个信号:当用户开始系统性地给自己的 AI 工具设计容错机制,这个工具就已经不再是「可靠的同事」了。
    v400127
        23
    v400127  
       3 天前
    @giter 好像 claude 谁也说过,一样的提示词 多的不说了,gpt5.4 表现稳的多,质量也好.ui 确实不如 claude
    xuhuanzy
        24
    xuhuanzy  
       3 天前
    gpt 代码能力早就远超 opus 了, cursor 出的数据 opus 甚至打不过 5.3, 但还是有很多人觉得 opus 强
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   821 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 87ms · UTC 21:55 · PVG 05:55 · LAX 14:55 · JFK 17:55
    ♥ Do have faith in what you're doing.