V2EX  ›  英汉词典
  •   指定的图片不存在

    Temporal-Difference Learning

    释义 Definition

    时序差分学习(TD 学习):强化学习中的一种方法,通过比较相邻时间步的预测差(“时间上的差分误差”)来更新价值估计;它把“基于采样的学习”(不必等到回合结束)与“动态规划式的自举更新”(用当前估计去更新当前估计)结合起来。常见形式包括 TD(0)TD(λ)Q-learningSARSA 等也与 TD 思想密切相关。

    发音 Pronunciation (IPA)

    /ˈtɛmpərəl ˈdɪfərəns ˈlɜːrnɪŋ/

    例句 Examples

    I used temporal-difference learning to estimate the value of each state.
    我用时序差分学习来估计每个状态的价值。

    Temporal-difference learning updates predictions online by minimizing the error between consecutive estimates, which makes it effective in long tasks with delayed rewards.
    时序差分学习通过最小化相邻估计之间的误差来进行在线更新,因此在奖励延迟、任务很长的场景中很有效。

    词源 Etymology

    temporal 意为“时间的、时序的”,difference 指“差分/差值”,合起来强调“跨时间步的差”。这一术语在强化学习研究中被系统化使用,尤其与 Richard S. Sutton 等人的工作相关:其核心思想是用下一时刻的预测(或回报与预测的组合)来更新当前预测,即所谓的自举(bootstrapping)

    相关词 Related Words

    文学与经典著作中的用例 Literary Works

    • Reinforcement Learning: An Introduction(Sutton & Barto):系统讲解 TD 学习、TD(0)、TD(λ) 与相关算法,是该术语最常见的出处之一。
    • “Temporal Difference Learning and TD-Gammon”(Gerald Tesauro):以 TD 方法训练西洋双陆棋程序 TD-Gammon,使 TD 学习广为人知。
    • “The Convergence of TD(λ) for General λ”(Sutton):讨论 TD(λ) 的理论性质与收敛相关问题。
    • “Q-learning”(Watkins):与 TD 思想紧密相关的无模型控制方法,常与 TD 学习一起在强化学习文献中出现。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2619 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 10:53 · PVG 18:53 · LAX 03:53 · JFK 06:53
    ♥ Do have faith in what you're doing.