基于Q学习的最短路径问题
于 2022-03-15 发布
文件大小:2.19 kB
0 110
下载积分: 2
下载次数: 1
代码说明:
本程序的主要算法和思路是基于Q学习的。 主要的步骤有: 1、 初始化环境状态和(状态,动作)对对应的Q函数值 2、 循环执行以下步骤,直到Q矩阵稳定不变: 2.1 根据当前的Q函数选择动作 2.2 获得奖励 2.3 观察新的环境状态 2.4 令 2.5
下载说明:请别用迅雷下载,失败请重下,重下不扣分!
发表评论


