关键词:深度确定性策略梯度;机械臂避障;轨迹序列模式;奖励函数
摘 要:机械臂在运动过程中,会产生大量的轨迹数据,由于传感器误差、环境不稳定性和其它因素的影响,采集到的机械臂轨迹数据包含噪声和不确定性,以上干扰会对模式挖掘的精度造成影响,使得成功样本提取变得困难。为解决上述问题,提出基于DDPG的机械臂避障轨迹序列模式挖掘方法。通过对机械臂避障问题分析,获取避障轨迹序列模式挖掘的根本目标,选择深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)作为挖掘机械臂避障轨迹序列模式的基础算法,并为其设计奖励函数以提升算法收敛性,将Sum Tree引入DDPG的经验回放之中,建立加权采样DDPG,实现机械臂最优避障轨迹序列模式挖掘。实验结果表明,所提方法的挖掘成功率在96%以上、挖掘时间在2ms内,且有效提高累积奖励均值。
内 容:原文可通过湖北省科技资源共享服务平台(https://www.hbsts.org.cn/)获取