基于逆强化学习与行为树的机械臂复杂操作技能学习方法
作者:宋越杰; 马陈昊; 孟子晗; 刘元归
加工时间:2024-07-26
信息来源:现代电子技术
关键词:机械臂;逆强化学习;行为树;复杂操作任务;专家策略;奖励函数
摘 要:现有分层强化学习方法不仅在学习过程中存在样本效率低、奖励稀疏以及学习时间过长等问题,而且大多基于仿真环境,导致学习策略在机器人真实操作环境中部署困难。针对上述问题,提出一种基于逆强化学习与行为树的机械臂复杂操作技能学习方法。在对复杂操作任务进行分割的基础上,首先,根据专家演示轨迹确定分割后每个子任务的强化学习参数及其对应的专家策略;其次,根据子任务专家策略并使用生成对抗模仿学习算法进行预训练,得到每个子任务的奖励函数;再次,运用每个子任务的奖励函数并基于SAC算法做进一步训练,获取到每个子任务的最优策略;最后,将子任务最优策略从仿真环境部署到真实环境,并将部署后的每个子任务作为叶节点构建行为树,实现机械臂复杂任务规划。实验结果表明,所提方法能较好地学习机械臂复杂操作技能,并在性能上优于其他传统强化学习算法。
内 容:原文可通过湖北省科技资源共享服务平台(https://www.hbsts.org.cn/)获取