增强学习算法
于 2022-08-10 发布
文件大小:1.45 kB
0 75
下载积分: 2
下载次数: 1
代码说明:
马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。强化学习的故事1:找到最优价值强化学习就是:追求最大回报G追求最大回报G就是:找到最优的策略π∗。策略π∗告诉在状态s,应该执行什么行动a。最优策略可以由最优价值方法v∗(s)或者q∗(s,a)决定
下载说明:请别用迅雷下载,失败请重下,重下不扣分!
发表评论