您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给AI研习社-译站
发送

0

进化策略让 AI 开挂,玩游戏不断给自己续命

本文作者:AI研习社-译站 2018-06-04 10:06
导语:针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案

雷锋网按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。

原标题 This Evolving AI Finds Bugs in Games - Two Minute Papers #250

翻译 | 孙启超    整理 | 凡江

强化学习会通过在系统中选择一系列的行为,把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能,例如在 Q bert 游戏中,人工智能每走一步,都要计算出合适的操作来控制这个橙色的光标,并在不碰到紫色敌人的情况下,点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。

Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。

进化策略让 AI 开挂,玩游戏不断给自己续命

更酷的是,在经过 5 个小时的训练后,我们发现该算法不仅能掌控游戏,还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

当它下落牺牲自己来引诱紫点时,出了个小故障,令我们惊喜的是,当从这个位置下落的时候,它应该是丢一条命,但因为这是个 BUG,所以没有死掉。

进化策略让 AI 开挂,玩游戏不断给自己续命

厉害~ AI 给自己续命

还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳,然后突然跳到另外一条路径上。

它发现并利用了另一个很严重的 BUG,据我所知这个 BUG 以前从来没有发生过,在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会 我们看到游戏并没有进入下个阶段,那些方格开始闪烁,人工智能可以想要多少分就拿多少分。

进化策略让 AI 开挂,玩游戏不断给自己续命

分数蹭蹭往上涨

通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。

视频原址:https://www.youtube.com/watch?v=wm8tK91k37U&t=105s

论文原址:https://arxiv.org/pdf/1802.08842.pdf

进化策略让 AI 开挂,玩游戏不断给自己续命


雷锋网雷锋网

雷峰网原创文章,未经授权禁止转载。详情见转载须知

进化策略让 AI 开挂,玩游戏不断给自己续命

分享:
相关文章

知情人士

AI研习社(yanxishe.com)译站频道,传播前沿人工智能知识,让语言不再成为学习知识的门槛。(原雷锋字幕组)
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说