1、 问题描述
开门作为核电站内区域间作业的首要任务,它在核电站的日常运维和核应急情况下的紧急救援都具有重要的作用。在非结构化核环境的开门作业场景下,由于受光照强度、辐射等条件的影响,视觉信息采集不足,机器人无法全自主作业,容易使决策出错,而且核辐射会对机器人上精密电子仪器造成损坏,导致机器人停在核环境中,为后续机器人作业形成了阻碍。故在此文章中,作者结合遥操作和机器人任务级自主的优势,构建了“遥操作+任务级自主”的核机器人开门系统,分析并研究核机器人自适应开门方法,并做出了改进。针对该问题,对核机器人开门作业任务的特点进行深度剖析,设计主从异构遥操作方法、机械臂数学模型、基于力觉引导的机械臂自适应旋拧门把手方法三个部分共同组成的核机器人开门作业系统框架。对主从机械臂的工作空间使用蒙特卡洛方法进行求解,研究并分析了主从异构型遥操作映射方法,根据已有的设备,构建遥操作系统。同时,通过拉格朗日公式建立两个机械臂的动力学模型,并求解机械臂的逆运动学,作为该系统框架的理论支撑。
在此基础上,提出了基于力觉引导的机械臂自适应旋拧门把手方法,对旋拧门把手的马尔可夫决策过程进行设计。改进了强化学习算法,设计了基于L-DDPG 的旋拧门把手方法,该方法使用了 DDPG 算法的双网络结构以及经验回放池,另外在 DDPG算法的Actor 网络中加入 LSTM 网络,防止算法在后续决策中对以往所学经验知识的遗忘,同时在经验回放池中,加入依奖励大小优先采样的权重,以提高其算法的收敛速度。根据力觉信息,设计算法的状态空间和动作空间,根据机械臂末端夹握住门把手的几何关系,设计奖励回报函数。
最后,在仿真和实物实验中通过所提出的方法使机械臂完成开门任务,并对方法性能进行评估。对 L-DDPG 算法先通过搭建仿真环境,训练算法网络模型,验证算法的收敛性与可行性,进而搭建基于 L-DDPG 的旋拧门把手的实物实验平台,在Phantom Omni主机械臂和UR5从机械臂上,通过ROS(Robot Operating System)发布的节点信息包获取主机械臂的末端轨迹,调用 API 函数实时获取 UR5 的末端位置,得到机械臂末端的轨迹图,最后采样主从机械臂末端轨迹上的点,计算出映射过程中的位置误差,将训练好的算法网络模型进行开门的实物实验,获得旋拧过程的实物实验数据,分析了该方法的实用性。
实验结果表明,主从机械臂的轨迹几乎一致。机械臂末端受力较小并能够很好的完成任务。在三种方法,迭代学习控制(ILC),变阻抗控制(VIC)和此文算法的对比试验结果表明,此文算法根据机械臂末端受力大小的变化,实时规划路径,使机械臂末端受到力更小,性能更优。机械臂所受的力与力矩的未超出最大值,算法可靠。另外,实物实验也验证了该算法的迁移能力和泛化性。