观澜Media

AI技术 · 深度资讯 · 前沿观察

Hamilton-Jacobi-Bellman 方程:强化学习和扩散模型

机器学习感觉很新,但其核心数学思想之一可以追溯到 ..

机器学习感觉很新,但其核心数学思想之一可以追溯到 1952 年,当时 Richard Bellman 发表了一篇题为“动态规划理论”的开创性论文 [6, 7],为最优控制和我们现在所说的强化学习奠定了基础。

在 50 年代后期,贝尔曼将他的工作扩展到连续时间系统,将最优条件转化为偏微分方程。

他后来发现,这与一个世纪前(1840 年代)发表的物理学结果相同,即汉密尔顿-雅可比方程。

一旦该结构可见,几个主题自然就会排列起来: 连续时间强化学习 随机控制 扩散模型 最优传输 在这篇文章中,我想将我们的注意力转向 Bellman 工作的两个应用:连续时间强化学习,以及如何通过随机最优控制来解释生成模型(扩散模型)的训练 1。

简介 # Bellman 最初在 20 世纪 50 年代初提出了离散时间动态规划 [6, 7]。

如果状态演变为受控马尔可夫链 $$ X_{n+1}\sim P(\cdot\mid X_n,a_n),$$ 具有一步奖励 $r(x,a)$ 和折扣因子 $\gamma\in(0,1)$,则目标为 $$ J(\pi):=\mathbb E\left[\sum_{n=0}^\infty \gamma^n r(X_n,a_n)\right],\qquad a_n\sim \pi(\cdot\mid X_n), $$,价值函数定义为:$$ V(x):=\sup_\pi \mathbb E\left[\sum_{n=0}^\infty \gamma^n r(X_n,a_n)\,\middle|\,X_0=x\right]。

来源:HackerNews

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

搜索归档

Access over the years of investigative journalism and breaking reports