在将这一思想转化为可计算框架的过程中,20世纪中叶至后期的多个数学分支做出了关键贡献。控制论研究了系统的反馈与调节机制,最优控制理论探讨了如何在动态系统中寻找最优决策序列,而Bellman方程和动态规划则为顺序决策问题提供了解析求解的数学工具。这些理论的共同特点是假设环境模型已知,即系统的状态转移规律和奖励函数都是确定的。
强化学习系统性学习笔记(一):从理论基础到策略优化
未经允许不得转载:小狮博客 » 强化学习系统性学习笔记(一):从理论基础到策略优化
在将这一思想转化为可计算框架的过程中,20世纪中叶至后期的多个数学分支做出了关键贡献。控制论研究了系统的反馈与调节机制,最优控制理论探讨了如何在动态系统中寻找最优决策序列,而Bellman方程和动态规划则为顺序决策问题提供了解析求解的数学工具。这些理论的共同特点是假设环境模型已知,即系统的状态转移规律和奖励函数都是确定的。