想让机器人更快更好的掌握抓取技术？给它们找个喜欢不停捣乱的陪练吧

本文作者：大壮旅

2017-06-08 16:35

导语：卡耐基梅隆大学和谷歌的研究人员在机器人抓取训练中运用了对抗策略，结果显示一个不断找麻烦的陪练反而是机器人进步的最好帮手。

雷锋网按，为了提升机器人完成操作任务（如抓取）的能力，卡耐基梅隆大学（CMU）和谷歌的研究人员让机器人通过对抗训练来不断进步。在训练中，“敌方”机器人会试图阻碍另一台机器人抓取物品（就像功夫熊猫中阿宝和师傅用筷子抢包子）。当然，研究人员还准备了更高难度的训练项目，他们有时会让同一个机器人的两只机械臂直接玩“左右互搏”，让一只机械臂阻止另一只抓取物品。

你知道在机器人研究中什么最无聊和乏味吗？当然是训练它们抓取不同的物品。现在有了 AI，研究人员再也不用看着这些“傻孩子”学习了，在自监督学习模式下，机器人会通过不同的方式不断尝试抓取物品。不过，这一过程可能要花费数千小时，而且即使机器人大致掌握了抓取的技巧，它也很难理解什么才是最棒的抓取方式。

这种训练方式的问题在于，大多数时间这些技术都在利用最基本的传感器来看待抓取的动作，这样的视角过于二元化，它们只在乎机器人是否拿起了目标物体，只要拿起来就算成功。不过，在现实世界中抓取是否成功可不是这个标准，因为不稳定的抓取会让物体坠落的可能性增大。此外，如果让机器人抓起一个盛了汤的碗，现有的粗暴抓取法肯定不可取，毕竟现实世界不是实验室。

出于这一考虑，CMU 和谷歌的研究人员决定将博弈论和深度学习用在机器人的训练中，而他们用到的方法就是开头提到的“捣乱法”，一台机器人会想方设法让对手无法抓起目标物体。

上周，该项目参与者 Lerrel Pinto、James Davidson 和 Abhinav Gupta 在 ICRA 展示了他们的研究成果，研究人员将这种对抗的方法描述为“双人零和重复博弈法”（零和博弈来自著名的博弈论）。在互相“拆台”的战斗中，双方都用到了卷积神经网络，一方会专注于抓取物品，另一方则要阻止对方抓取物品。

在训练中，一心要抓取物品的机器人不但要躲过对方不断袭来的“黑手”，还要处理重力、惯性和摩擦力等因素带来的影响。如果想进一步提升机器人的抓取能力，还可设定抓到物品机械臂就会摇晃几下的坏招（希望抓娃娃机老板不要学会这一招）。这样一来，加上另一只不停捣乱想要抢夺物品的机械臂，机器人的抓取能力就能提升到新的境界。

如果捣乱的机械臂成功打掉或抢走负责抓取机械臂手中的物品，那么这次抓取任务就算失败，在训练过程中抓取程序会不断从失败中吸取教训。与此同时，负责捣乱的程序则会从成功中找到新的法门，两者会在“嬉戏打闹”中共同进步。这也是该项目具有重大现实意义的原因，机器人要想走出实验室，必须保证能在挑战不断的环境中不犯错。

想让机器人更快更好的掌握抓取技术？给它们找个喜欢不停捣乱的陪练吧 一台机器人试图从对手那里夺下抓取的物品

研究人员表示，他们的对抗策略确实能加快机器人的训练进程，这种方法培养的系统更加强大。经过测试，三次迭代后，其抓取成功率从 43% 升到了 58%，而没有采用对抗策略训练的机器人，抓取成功率仅为 47%。

该结果可以清楚的表明，有个给机器人“拆台”的伙伴监督和陪练，作用可比傻乎乎的搜集抓取数据大多了。雷锋网注意到，研究人员公布的测试数据显示，6 千次的陪练后，机器人的抓取成功率比机器人自己单练 1.6 万次都要高。因此，对抗策略在机器人训练中明显更有优势。

经过一段时间的训练后，有陪练的机器人抓取成功率提升到了 82%，而没有这个待遇的机器人成功率仅为 68%。更令人惊讶的是，即使降低抓取机器人的力量和抓手的摩擦力，其成功率依然有 65%，而采用单练策略的机器人则下滑至 47%。

在这一过程中，研究人员也使尽了自己“一肚子坏水”，他们专门观摩了单练机器人容易失误的地方，并将这些破绽编入了捣乱机器人的程序中。同时，在训练中捣乱机器人不断的抢夺也是物品掉落的重要因素。当然，只有经历了这样的魔鬼训练，抓取机器人才能练出一身技艺。

Via. Spectrum.ieee 雷锋网编译

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

大壮旅

编辑

发私信

当月热门文章