基于Q-学习的机械臂避障行为学习控制器的设计及实现
关键词:强化学习;;Q-学习;;轨迹规划;;机械臂运动控制
摘 要:近年来,强化学习理论在机器人控制领域得到了广泛的关注和研究。工业机械臂作为工业生产中常见的工具被大量地运用于自动生产线中。如何把强化学习理论应用到工业机械臂的运动控制中,令其具有一定的自主学习的能力,对扩大机械臂的应用场合,降低机械臂的操作难度具有重大意义。本文针对传统的强化学习算法无法直接应用到高维连续状态-动作空间的问题,提出了一种新的解决方法,成功解决了机械臂避障轨迹规划的问题。该方法将传统轨迹规划方法与Q-学习算法相结合,通过重新定义机械臂的状态空间与动作空间,将寻找路径点和轨迹规划任务分离,不仅降低了机械臂的搜索空间,缩短了学习时间,并且保证了机械臂在学习过程中的安全性。本文具体工作如下:首先,回顾了传统机械臂运动控制理论,主要包括机械臂运动学建模,动力学建模以及轨迹规划方法,并且对机械臂闭环控制系统中由于关节力矩波动、负载突变及传感数据不准确造成的误差,分析了相应的补偿方法,并在仿真实验中证明了该方法的有效性。接着,详细地介绍了强化学习理论,在此基础上,将Q-学习算法应用到机械臂学习避障行为的任务中。通过重新定义状态-动作空间,设计奖惩函数以及改进搜索策略设计出了基于Q-学习的机械臂避障行为学习控制器,该控制器可以使机械臂可以通过自主学习完成避障行为,从而增强机械臂自主执行任务的能力。其次,将该方法与传统机械臂避障方法在不同实验环境下进行比较,通过实验仿真验证了该方法的优越性。最后,设计了Dobot Magician机械臂的实验环境,并在该机械臂上运行了本文提出的方法,实验显示机械臂可以通过自主学习实现避障功能,验证了该方法在工业机械臂上应用的可行性。文章最后,详细总结了该方法的优缺点并提出了未来可改进的问题,对以后工作方向做了阐述。
内 容:原文可通过湖北省科技信息共享服务平台(http://www.hbstl.org.cn)获取