点击蓝字 关注我们
SUBSCRIBE to US
T CHAFFRE/FLINDERS UNIVERSITY
This article is part of our exclusive IEEE Journal Watch series in partnership with IEEE Xplore.
无人潜航器(UUV)是一种水下机器人,在没有人的情况下运行。这些运载工具的早期使用案例包括深海勘探和水下水雷的禁用等工作。然而,由于水的扭曲效应,无人潜水器的通信和导航控制较差。因此,研究人员已经开始开发机器学习技术,帮助无人潜航器更好地自主导航。
也许研究人员正在努力解决的最大挑战是缺乏GPS信号,因为GPS信号无法穿透水面。其他类型的依赖相机的导航技术也无效,因为水下相机的能见度很低。
研究人员表示,他们的目的之一是最终帮助解决清除累积在船体上的生物的危险工作。这些堆积物,也被称为生物膜,通过引入入侵物种对环境构成威胁,并通过增加的船舶阻力提高了运输成本。
在上个月发表在IEEE Access(https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=6287639)杂志上的这项研究(ieeexplore.ieee.org/document/10304148)中,来自澳大利亚和法国的研究人员使用了一种称为深度强化学习的机器学习方法,帮助无人潜航器在困难条件下更准确地导航。
在强化学习(spectrum.ieee.org/tag/reinforcement-learning)中,UUV模型从执行随机动作开始,然后观察这些动作的结果,并将其与目标进行比较——在这种情况下,尽可能接近目标目的地;加强积极结果的行动,避免导致不良结果的行动。
海洋给无人潜航器的导航挑战增加了另一层复杂性,强化模型必须学会克服这些挑战。洋流很强,可以将潜航器带到远离预定路径的不可预测的方向。因此,无人潜水器需要导航,同时还要补偿来自电流的干扰。
为了达到最佳效果,研究人员调整了强化学习的长期惯例。这项研究的主要作者、澳大利亚阿德莱德弗林德斯大学科学与工程学院的副研究员Thomas Chaffre表示,他的团队的出发点是该领域研究大规模迁移的一部分。今天,包括谷歌DeepMind在内的机器学习研究人员Chaffre表示,质疑关于强化学习训练过程的长期假设正变得越来越普遍,他们正在寻找可以显著提高训练成绩的微小变化。
在这种情况下,研究人员专注于改变强化学习的记忆缓冲系统,该系统用于存储过去动作的结果。存储在存储缓冲器中的动作和结果在整个训练过程中被随机采样,以更新模型的参数。Chaffre说,通常这种采样是以“独立且相同分布”的方式进行的,这意味着它用来更新的操作完全是随机的。
T CHAFFRE/FLINDERS UNIVERSITY
研究人员对训练过程进行了改变,使其从记忆缓冲区中采样,其方式更类似于人类大脑的学习方式。与其有平等的机会从过去的所有经历中学习,不如更多地重视那些带来巨大积极成果的行动,以及最近发生的行动。Chaffre说:“当你学习打网球时,你会更多地关注最近的经历。随着你看到进步,你将不在乎开始训练时的表现,因为它不再能体现出任何关于你当前水平的信息。”
Chaffre说,同样,当强化算法从过去的经验中学习时,它应该主要集中在最近的行动上,这些行动带来了巨大的积极收益。
研究人员发现,当使用这种自适应内存缓冲技术时,UUV模型可以更快地训练,同时消耗更少的功率。Chaffre说,这两种改进在部署无人潜航器时都提供了显著的优势,因为尽管经过训练的模型可以随时使用,但仍需要对其进行微调。
Chaffre说:“因为我们正在研究水下机器人,使用它们的成本非常高,而且用它们训练强化学习算法非常危险。” 因此,他补充道,减少模型微调的时间可以防止潜航器损坏,并节省维修费用。他说,该团队未来的计划包括在海洋中的物理无人潜航器上测试新的训练算法。
微信号|IEEE电气电子工程师
新浪微博|IEEE中国
 · IEEE电气电子工程师学会 · 
继续阅读
阅读原文