OpenAI机械手展示解开三阶魔方使用ADR及强化学习新技术训练

近日据外媒报道，OpenAI是一家以人工智能和机器学习研究而闻名的公司，其周二展示了能解开三阶魔方的机械手。

名为Dactyl的机械手是通过使用称为自动域随机化(ADR)和强化学习的新技术进行训练的。在过去的Dota 2中，Dactyl所采用的强化学习算法已经证明了它可以对抗人类对手。

新技术ADR通过生成越来越难以训练的Dactyl训练场景来帮助教机械手解决古老的难题。自动域随机化的方式如下：

ADR从单一的非随机环境开始，在该环境中，神经网络学习了如何解开三阶魔方。随着神经网络在任务中变得更好并达到性能阈值，域随机化的数量会自动增加。

由于神经网络现在必须学会将其推广到更随机的环境，因此这使任务更加艰巨。神经网络不断学习，直到再次超过性能阈值，然后再进行更多随机化，然后重复该过程。

团队认为，ADR是一项重大进步，因为逐步困难的训练模拟的建立“使我们摆脱了对真实世界的准确模型的束缚，并使在模拟中学习到的神经网络的转移能够应用于真实世界。 ”

关键词：

OpenAI机械手展示解开三阶魔方 使用ADR及强化学习新技术训练