强化学习鸳鸯问题
于 2022-02-12 发布
文件大小:2.01 kB
0 42
下载积分: 2
下载次数: 1
代码说明:
马尔科夫决策过程(Markov Decision Process)是强化学习(reinforcement learning)最基本的模型框架。它对序列化的决策过程做了很多限制。比如状态StSt和动作atat只有有限个、 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
下载说明:请别用迅雷下载,失败请重下,重下不扣分!
发表评论