关键词:机器人;;机械臂;;控制策略;;深度强化学习;;深度Q网络;;长短时记忆网络
摘 要:近年来,深度强化学习迅速成为人工智能领域的重要前沿阵地,基于深度强化学习的算法已经在各个领域取得了突破性进展,尤其是在智能机器人控制领域,结合了卷积神经网络和传统强化学习中的Q学习算法的DQN(Deep Q Network)算法是深度强化领域的开创性工作,它解决了传统智能机器人行为决策时无法感知环境的问题。因此如何在真实环境下利用DQN及其改进算法使机器人直接根据高维感知输入学习到最优策略是论文的研究重点。论文的目标是通过训练得到一个策略网络使得机械臂通过感知到的高维度原始输入数据进行行为决策,实现从原始输入到输出的直接控制。论文主要研究内容及贡献如下:首先,论文研究并提出了一种基于引导式DQN机械臂控制策略算法。该算法的主要原理是采用了自助抽样的方式,利用多个分流网络来随机化值函数,临时扩展对状态空间的探索范围,实现深层探索。通过这种分布式的深度探索方法,充分保证了智能体对不同策略的探索,产生多样化的样本,使环境的动态信息更好地泛化到位置的状态空间中。其次,论文提出了一种基于递归式DQN机械臂控制策略算法。由于真实环境中的部分可观测性,机械臂所感知到的状态信息通常具有不完整性和明显的噪音,基于递归式的DQN算法将循环神经网络结构与深度Q网络结合,通过向原有DQN网络中添加新的功能模块LSTM(long short-terrm memory network),使得模型拥有时间轴上的记忆能力,能够更好地处理信息的丢失问题。论文利用DQN及其改进模型完成了真实环境中机械臂抓取物体的任务,实验过程中为保证训练过程的连贯性,同时避免机械臂与自身或外界物体发生碰撞引发的安全问题,本文提出了机械臂安全保障机制。实验结果证明了论文设计的两种DQN改进算法的有效性。
内 容:原文可通过湖北省科技信息共享服务平台(http://www.hbstl.org.cn)获取