• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Zhipuai
V2EX  ›  程序员

GLM-4.7 上线并开源:更强的编码

  •  
  •   Zhipuai ·
    PRO
    · Dec 23, 2025 · 16136 views
    This topic created in 168 days ago, the information mentioned may be changed or developed.

    GLM-4.7 上线并开源。 新版本面向 Coding 场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。

    目前,GLM-4.7 已通过 BigModel.cn 提供 API ,并在 z.ai 全栈开发模式中上线 Skills 模块,支持多模态任务的统一规划与协作。

    Coding 能力再提升

    GLM-4.7 在编程、推理与智能体三个维度实现突破:

    • 更强的编程能力:显著提升了模型在多语言编码和在终端智能体中的效果; GLM-4.7 现在可以在 Claude Code 、TRAE 、Kilo Code 、Cline 和 Roo Code 等编程框架中实现“先思考、再行动”的机制,在复杂任务上有更稳定的表现。
    • 前端审美提升:GLM-4.7 在前端生成质量方面明显进步,能够生成观感更佳的网页、PPT 、海报。
    • 更强的工具调用能力:GLM-4.7 提升了工具调用能力,在 BrowseComp 网页任务评测中获得 67.5 分;在 τ²-Bench 交互式工具调用评测中实现 87.4 分的开源 SOTA ,超过 Claude Sonnet 4.5 。
    • 推理能力提升:显著提升了数学和推理能力,在 HLE (“人类最后的考试”)基准测试中获得 42.8% 的成绩,较 GLM-4.6 提升 41%,超过 GPT-5.1 。
    • 通用能力增强:GLM-4.7 对话更简洁智能且富有人情味,写作与角色扮演更具文采与沉浸感。

    Code Arena:全球百万用户参与盲测的专业编码评估系统,GLM-4.7 位列开源第一、国产第一,超过 GPT-5.2 。

    在主流基准测试表现中,GLM-4.7 的代码能力对齐 Claude Sonnet 4.5: 在 SWE-bench-Verified 获得 73.8% 的开源 SOTA 分数; 在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数,超过 Claude Sonnet 4.5 ; SWE-bench Multilingual 达到 66.7%(提升 12.9%); Terminal Bench 2.0 达到 41%(提升 16.5%)。

    真实编程场景下的体感提升

    在 Claude Code 环境中,我们对 100 个真实编程任务进行了测试,覆盖前端、后端与指令遵循等核心能力。结果显示,GLM-4.7 相较 GLM-4.6 在稳定性与可交付性上均有明显提升。

    GLM Coding Plan

    • Claude Code 全面支持思考模式,复杂任务连续推理与执行更稳定
    • 针对编程工具里的 Skills / Subagent / Claude.md 等关键能力定向优化,工具调用成功率高、链路可靠
    • Claude Code 中视觉理解能力开箱即用;内置搜索与网页读取,信息获取到代码落地一站闭环
    • 架构设计与指令遵循更强,明显降低长上下文下的“幻觉式完成 / 跑偏”,交付质量更可控

    作为本次升级的首个体验权益,所有购买套餐的用户将获得「体验卡」礼包,可邀请 3–7 位新用户免费体验 7 天套餐权益。

    领取链接:[https://zhipuaishengchan.datasink.sensorsdata.cn/t/kc]

    111 replies    2026-01-15 14:05:21 +08:00
    1  2  
    trio
        101
    trio  
       Dec 25, 2025
    @mooyo 哥们儿,什么渠道五块钱,稳定吗?
    mooyo
        102
    mooyo  
       Dec 25, 2025
    @trio #101 gpt team 拼车。5 块钱你还想要稳定?
    AsuraTG
        103
    AsuraTG  
       Dec 25, 2025
    11 月份开始在 claude code 使用的, 没有很深度的使用, 应对日常开发很够用了
    AlexHsu
        104
    AlexHsu  
       Dec 25, 2025
    说实话国产模型也就图一乐 真要打算干点 java crud 的垃圾活省点钱 可以用小米 那玩意虽然垃圾 但是四舍五入等于不要钱 2 块钱 100 万 token
    v2048
        105
    v2048  
       Dec 26, 2025
    虽然……,但是真心希望国产的能尽早超越 claude code 这种不让国内用的。
    saymoon
        106
    saymoon  
       Dec 26, 2025
    几款国产编程大模型头部都试过两轮了(都充过值)不是宣传效果被刺,就是价格被刺。短期内不会再花费时间和金钱尝试了。
    QS0x01
        107
    QS0x01  
       Dec 26, 2025
    相比 4.6 ,4.7 支持思考了,但是感觉思考的内容不是太有价值,简短且是重复用户指令。
    suyuyu
        108
    suyuyu  
       Dec 26, 2025
    学啥不好学华为。
    kisstrnt
        109
    kisstrnt  
       Dec 29, 2025
    帮倒忙的模型,浪费时间
    NizumaEiji
        110
    NizumaEiji  
       Jan 5
    使用了一周之后,尤其新年后这两天的使用体验来看,glm 的使用质量堪称灾难。限速严重导致生成速度还不如我直接写。质量更是差到离谱,什么都没干是最后的结果,一通乱搞把本来正常的改成不正常的属于基础操作。
    大段大段和需求无关废话连篇的内容生成多到让人头疼,一个替换图片名功能的脚本生成了包括 py 、sh 以及 md 说明的文件内容加起来有四五个,一时半会都搞不清哪个才是真正有用的,最后阅读了半天代码发现真正实现功能的 py 脚本代码是错的。
    qcyd
        111
    qcyd  
       Jan 15
    GLM4.7 像拉屎一样,付钱了当孙子啊
    1  2  
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1575 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 51ms · UTC 16:48 · PVG 00:48 · LAX 09:48 · JFK 12:48
    ♥ Do have faith in what you're doing.