Hamilton-Jacobi-Bellman 方程：强化学习和扩散模型

机器学习感觉很新，但其核心数学思想之一可以追溯到 ..

作者

观澜Media

2026-03-31

无评论

3 分

阅读时间

机器学习感觉很新，但其核心数学思想之一可以追溯到 1952 年，当时 Richard Bellman 发表了一篇题为“动态规划理论”的开创性论文 [6, 7]，为最优控制和我们现在所说的强化学习奠定了基础。

在 50 年代后期，贝尔曼将他的工作扩展到连续时间系统，将最优条件转化为偏微分方程。

他后来发现，这与一个世纪前（1840 年代）发表的物理学结果相同，即汉密尔顿-雅可比方程。

一旦该结构可见，几个主题自然就会排列起来：连续时间强化学习随机控制扩散模型最优传输在这篇文章中，我想将我们的注意力转向 Bellman 工作的两个应用：连续时间强化学习，以及如何通过随机最优控制来解释生成模型（扩散模型）的训练 1。

简介 # Bellman 最初在 20 世纪 50 年代初提出了离散时间动态规划 [6, 7]。

如果状态演变为受控马尔可夫链 $$ X_{n+1}\sim P(\cdot\mid X_n,a_n)，$$ 具有一步奖励 $r(x,a)$ 和折扣因子 $\gamma\in(0,1)$，则目标为 $$ J(\pi):=\mathbb E\left[\sum_{n=0}^\infty \gamma^n r(X_n,a_n)\right],\qquad a_n\sim \pi(\cdot\mid X_n), $$，价值函数定义为：$$ V(x):=\sup_\pi \mathbb E\left[\sum_{n=0}^\infty \gamma^n r(X_n,a_n)\,\middle|\,X_0=x\right]。

来源：HackerNews