关键词:机械臂;先验知识;深度强化学习;网络迁移
摘 要:在应用深度强化学习(deep reinforcement learning, DRL)实现机械臂自主行为决策过程中,高维连续的状态-动作空间易引起数据采样效率低及经验样本质量低,最终导致奖赏函数收敛速度慢、学习时间长。针对此问题,提出一种引入先验知识的DRL模型。该模型与机械臂逆运动学相结合,在DRL采样阶段引入先验知识指导智能体(Agent)采样,解决学习过程中的数据采样效率低、经验样本质量低的问题;同时通过网络参数迁移的方式验证引入先验知识的DRL模型在面对新任务时仍具有较强的泛化能力;最后,利用Python和CoppeliaSim仿真平台进行联合仿真实验。结果表明:引入先验知识的DRL模型比原始模型的学习效率提升了13.89%、12.82%,完成任务的成功率提高了16.92%、13.25%;在新任务中,学习率提升了23.08%、23.33%,成功率提高了10.7%、11.57%。
内 容:原文可通过湖北省科技资源共享服务平台(https://www.hbsts.org.cn/)获取