OpenAI机械手展示解开三阶魔方 使用ADR及强化学习新技术训练

时间:2019-10-16 16:55:17       来源:中关村在线

近日据外媒报道,OpenAI是一家以人工智能和机器学习研究而闻名的公司,其周二展示了能解开三阶魔方的机械手。

名为Dactyl的机械手是通过使用称为自动域随机化(ADR)和强化学习的新技术进行训练的。在过去的Dota 2中,Dactyl所采用的强化学习算法已经证明了它可以对抗人类对手。

新技术ADR通过生成越来越难以训练的Dactyl训练场景来帮助教机械手解决古老的难题。自动域随机化的方式如下:

ADR从单一的非随机环境开始,在该环境中,神经网络学习了如何解开三阶魔方。随着神经网络在任务中变得更好并达到性能阈值,域随机化的数量会自动增加。

由于神经网络现在必须学会将其推广到更随机的环境,因此这使任务更加艰巨。神经网络不断学习,直到再次超过性能阈值,然后再进行更多随机化,然后重复该过程。

团队认为,ADR是一项重大进步,因为逐步困难的训练模拟的建立“使我们摆脱了对真实世界的准确模型的束缚,并使在模拟中学习到的神经网络的转移能够应用于真实世界。 ”

关键词: