登录
首页 » Python » 阿里强化学习.pdf

阿里强化学习.pdf

于 2020-05-09 发布
0 232
下载积分: 1 下载次数: 3

代码说明:

阿里强化学习.pdf

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • Black Hat Python
    【实例简介】
    2021-09-13 00:31:12下载
    积分:1
  • Python 3.6标准库参考手册(完美书签)
    搜遍全网也没看见个带书签的Python的标准库参考手册,只好用了一晚上的时间自己做了一个,本手册是基于2118页的中文版制作的书签,方便给需要的人。
    2019-08-02下载
    积分:1
  • 小波变换python简单练习
    【实例简介】
    2021-09-09 00:31:06下载
    积分:1
  • dbscan聚类代码
    dbscan聚类代码
    2020-11-04下载
    积分:1
  • python实现贪吃蛇小游戏(面向对象)
    用python(面向对象)的方法实现贪吃蛇小游戏 python 3 ,pygame 2.0
    2020-04-20下载
    积分:1
  • python 弹球 小游戏源码(亲测可用)
    python小游戏
    2019-12-21下载
    积分:1
  • 于opencv的安全帽佩戴检测(detect)
    基于opencv的安全帽佩戴检测,开发语言采用python,自己训练的安全帽分类器。
    2019-10-10下载
    积分:1
  • DCGAN算法图像生成
    使用GAN算法生成图像
    2020-12-02下载
    积分:1
  • 俄罗斯方块强化学习实验报告
    一、俄罗斯方块DQN算法实验报告1. 网络结构图1 DQN网络结构2. 超参数 GAMMA = 0.99  # decay rate of past observations 设置增强学习更新公式中的累计折扣因子 OBSERVE = 500.  # timesteps to observe before training 设置观察期的迭代次数 EXPLORE = 500.  # frames over which to anneal epsilon 设置探索期的观察次数 FINAL_EPSILON = 0.002  # final value of epsilon 设置ε的最终最小值 INITIAL_EPSILON = 10.0  # starting value of epsilon 设置ε的初始值 REPLAY_MEMORY = 5900  # number of previous transitions to remember 设置replay memory的容量 BATCH = 32  # size of mini batch 设置每次网络参数更新世用的样本数目 K = 1  # only select an action every Kth frame, repeat prev for others,设置几帧图像进行一次动作, # K越大让控制台输出的速度变慢,游戏画面速度变快,机器人动作的速度变越迟缓。ACTIONS = 6  # number of valid actions 游戏动作数3.实验结果训练前期的self.score分数很低150左右,EPSILON=1.0,Q_MAX= 2.061341e-02:图2 EPSILON=1.0设置超参数EPSILON=0.05在1000步迭代之后:EPSILON固定在0.04999999999999416  Q_MAX = -1.163765e-01Self.score有明显的提升,但是之后无论训练多久都没有明显提升了。图3 EPSILON=0.05设置超参数EPSILON= 0.002在1001步迭代之后:EPSILON固定在0.000004 Q_MAX = 1.728995e 02Self.score可以轻松达到200以上。图4 EPSILON=0.000004设置超参数EPSILON= 0.000001在1001步迭代之后:EPSILON固定在-0.001998997999987482  Q_MAX = 1.899879e 03Self.score可以轻松达到200以上。图5 EPSILON=-0.002 【核心代码】用DQN来玩俄罗斯方块 tetrix_DQN ├── Wrapped Game Code│   └── tetris_fun.py├── deep_q_network.py├── logs_tetris│   ├── hidden.txt│   └── readout.txt└── saved_networks    ├── tetris-dqn-10000.data-00000-of-00001    ├── tetris-dqn-10000.index    ├── tetris-dqn-10000.meta    └── tetris-dqn-316600003 directories, 8 files
    2020-12-01下载
    积分:1
  • CD编码嵌入双曲空间得到表征
    双曲嵌入作为一种捕获层次信息的方法被提出,可以将丰富的结构信息与现代机器学习分布式表达中所青睐的连续表示相融合。本实例将ICD编码嵌入双曲空间得到表征。下面是代码结构和结果分析: 1)数据预处理——数值向量化 将文本数据转换成数值向量,使用split函数将原本连接的文本数据分开,每个文本我们都会得到一个列表,构成词典。 2)主要程序代码 从上到下分别是建立整个网络模型的,构建网络参数的,和训练网络模型的。 3)参数的传入   训练的时候,这些参数的设置,batchsize是64,batchsize就是每轮训练的时候传入的是64个样本,dim 10表示维度是10,epoch 100表示训练了100轮,chechpoint-freq 是10 表示每过10个epoch保存一次模型。 4)训练过程 这个是训练过程中每一个epoch的loss值,MAP是评价指标
    2021-07-01 00:31:18下载
    积分:1
  • 696518资源总数
  • 105547会员总数
  • 4今日下载