0
雷锋网AI科技评论按:近年来,随着中国的学术实力不断增强,越来越多的学术顶会移步中国,例如IJCAI、IROS、EMNLP、ICDM等学术顶会今年都在国内举办。而针对多智能体系统而举办的国际分布式人工智能会议(Distributed AI,DAI)则更进一步的代表,不仅仅首届会议选址中国,且其发起人中多数也都是华人学者。
其中南洋理工大学安波(大会共同主席)、清华大学唐平中(程序委员会共同主席)、南京大学高阳(Workshop 主席)、MSRA 秦涛(工业论坛主席)、南京大学俞扬(赞助主席)、天津大学郝建业(宣传主席)都在组织者之列,图灵奖得主姚期智院士也担任大会名誉主席并将做主旨报告。
之所以由华人推动并成立这个会议,其背后则是我国分布式人工智能的研究群体日益壮大,工业界的应用越来越频繁,国内学术界迫切需要举办一个新的高水平交流平台。
2019年10月13-15日,第一届国际分布式AI大会在北京国家会议中心成功召开。雷锋网了解到,本次会议共有 1 个workshop、2个tutorial、3个特邀主旨报告、3个工业主旨报告、6个工业特邀报告以及48个oral演讲。本次会议,作为首届DAI会议,共接收37篇投稿论文,其中13篇被收录(长论文 11 篇、短论文 3 篇)。此外,为了丰富本次会议的内容,会议组织方也邀请了来自AAAI,AAMAS,IJCAI,NeurIPS,ICML,ACL,KDD等顶会的35篇论文做口头报告。
会议从13日开始,上下午分别有一个tutorial。有意思的是,上午tutorial的讲者是著名德扑AI研究者Noam Brown,而下午的讲者是在围棋AI领域极为著名的华人学者田渊栋。
Noam Brown 是Facebook人工智能实验室的研究科学家,他在计算博弈论和机器学习方面成果显著,最为著名的则是2017年研发了双人无限扑克Libratus ,以及2019年研发了多人无限扑克Pluribus,分别战胜了人类顶级玩家,轰动一时。其中,Libratus 也被《科学》杂志列入 12 项年度突破性科学成果之一,Pluribus 则登上《科学》杂志的封面。
在tutorial中,Brown讲述了“不完美信息”情况下的游戏AI。在传统游戏AI(例如国际象棋、围棋等),所有的信息对于博弈双方来讲都是已知的,人工智能所需做的是尽可能快地搜寻最优解,随着AlphaGo在围棋上的突破,完美信息游戏AI已经达到了巅峰。但在现实世界中的诸多决策往往是不完全展现在参与者面前的,例如扑克,我们并不知道对手手中牌的信息。Brown在tutorial中首先解释了为什么过去用于完美信息游戏的策略(搜索算法)在不完美信息游戏中会崩溃,然后介绍了集中克服相应挑战的新算法,特别是涵盖虚拟游戏和反事实后悔最小化算法(counterfactual regret minimization algorithms),以及用于不完美信息游戏的搜索技术。
田渊栋则从强化学习的角度对游戏AI中的方法、工具、应用以及其他等方面做了全面回顾。田渊栋是Facebook在围棋研究领域的负责人,在今年初田渊栋将基于AlphaZero研究工作而开发的ELF OpenGo 预训练模型与代码完全开源,成为围棋AI的首次开源,极大地促进了围棋AI的广泛研究和应用。
在tutorial中,田渊栋对最新的强化学习方法(A3C,APE-X,R2D2,SAC,自学习等)及其在游戏和其他应用中的用法进行了广泛的回顾,并提出了一个全新的强化学习工具ReLA。田渊栋介绍说,ReLAx与之前他们开源所使用的ELF相比,在PyTorch C++ API中能够利用本机向量支持,具有高效的批处理功能,且能够执行并行网络转发。田渊栋在随后通过更加详细的应用案例讲解了ReLA的应用,值得游戏AI研发的人员仔细研究。
本次会议的另一大亮点是由姚期智、Victor R. Lesser、刘铁岩组成的特邀主旨报告阵容。
姚期智是世界著名的计算机学家,2000年图灵奖得主。其主要研究方向为计算理论及其在密码学和量子计算中的应用。其在1995年便提出了分布式量子计算模型,后来成为分布式量子算法和量子通讯协议安全性的基础。在本次会议中,姚期智作为首个特邀报告嘉宾做了主题为《Fintech: A Meeting of Minds Between Computer Science and Economics》的报告。
姚期智认为金融科技可以看做是数字时代经济学和计算机科学的一次融合,在金融科技的主要技术基础包含了计算机科学的可靠分布式计算和密码学以及金融学方面的有效金融活动机制等。在报告中,姚期智从以上的角度,探讨了拍卖以及区块链领域的一些最新工作。例如是否可以从竞标者愿意支付的拍卖中获得更多收益?当投标人比其他人更具风险承受能力时会有更多的收入吗?他随后还介绍了有关区块链费用的一些最新结果。他认为这些结果有助于揭示经济学中的写结构性问题,而这些问题的答案在以往并不明显。以下是姚期智在演讲最后的总结:
Victor R. Lesser 可谓是多智能体系统领域的创始人之一。他的重点研究领域包括复杂 AI 系统的控制和组织等,在多智能体和「黑板」系统等领域做出了突出贡献。他曾担任 AAAI 创始 Fellow、IEEE Fellow、多智能体系统国际会议(ICMAS)的首届主席、国际智能体及多智能体系统协会(IFAAMAS)创始主席等;2007 年,为了表彰他在多智能体系统领域做出的杰出贡献,IFAAMAS 还专门设立了以他的名字命名的「Victor Lesser 杰出论文奖」。此外,他还获得了 2009 年 IJCAI「卓越研究奖」等重要奖项。作为多智能体系统领域的创始人,Lesser的报告主题为《Reflections on DAI History and Coordination Technology》,全面回顾了分布式AI和协作技术的研究历史。
Lesser 回顾说,上世纪 70 年代后期,分布式人工智能这个新领域开始兴起,研究内容包括分布式问题求解、规划、组织控制、协商、协作等。最早在1980年 MIT 举办首次分布式人工智能研讨会,当时仅有 22 人参加;直到1995年才举办第一个相关的国际性会议ICMAS(International Conference on Multi-Agent Systems)。随后分布式AI的研究逐渐蓬勃发展。Lesser列举了80年代人们对分布式AI的看法,并指出当时“Agents' Views can be uncertain, incomplete and Out-of-Date”,尽管这么多年已经过去,用户的带宽呈指数增长,agent仍然必须应对有限且过时的网络状态视图。随后Lesser讲述了他个人对于协作在多智能体中的作用。并强调说“协作过去是、现在是、将来也将仍然是分布式AI中重要且具有挑战性的问题”。
刘铁岩是微软亚洲研究院副院长,IEEE Fellow。作为机器学习和信息检索领域的知名专家,他近年来在深度学习、强化学习、分布式机器学习等方面也颇有建树。值得一提的是,他带领的微软团队就在不久前为 AI 领域带来了一项突破性的成果——世界最强的麻将 AI「Suphx」在日本在线麻将竞技平台「天凤」晋级十段。不过他在本次报告中并没有介绍他们所研制的麻将AI,而是以主题为《Towards AI-powered Industrial Digital Transformations》介绍了微软亚洲研究院如何利用人工智能帮助传统企业进行数字化转型。
刘铁岩首先介绍了他们与共同基金公司AMC和保险公司中国太平在AI投资方面的合作,据刘铁岩介绍,他们开发的AI投资模型实现了超额的回报以及非常好的风险控制。随后他介绍了微软亚洲研究院与世界上最大的海洋运输公司东方海外的合作,其发明的“竞争性强化学习”的技术解决了他们在空容器重新放置的问题,极大地降低了东方海外的运营成本。刘铁岩介绍说,随着AI技术的发展,将会有越来越多的行业进行数字化转型,AI科学家和领域专家应当充分合作以共同促进世界的进步。
除了以上三位大会特邀主旨报告外,会议还邀请了蚂蚁金服副总裁漆远、微软亚洲软件技术中心首席科学家姜大昕、滴滴出行副总裁叶杰平分别就分布式AI在各自行业的应用做了特邀分享:
蚂蚁金服副总裁漆远
报告主题:Multi-agent Machine Learning for All-Inclusive Finance
微软亚洲研究院软件技术中心首席科学家姜大昕
报告主题:Question Answering in Bing
滴滴出行副总裁叶杰平
报告主题:AI for Transportation
本届 DAI 大会在14日晚宴上宣布了最佳论文奖与最佳论文荣誉提名奖项。
本届最佳论文获奖者为 Weixun Wang、Jianye Hao、Yixi Wang、Matthew E. Taylor 。其中 Weixun Wang、Jianye Hao、Yixi Wang 来自天津大学,Matthew E. Taylor 来自华盛顿州大学。
标题:Achieving Cooperation Through Deep Multiagent Reinforcement Learning in Sequential Prisoner's Dilemmas
作者:Weixun Wang, Jianye Hao, Yixi Wang, Matthew E. Taylor
论文地址:http://www.adai.ai/dai/paper/29.pdf
该论文考虑了一个多智能体交互的问题。考虑到真实世界更多的是一个多智能体问题,采用传统的「感知」方法是不够的,需要多智能体研究来更好地模拟真实情况。迭代囚徒困境已经指导了社会困境问题方面的研究多年。然而,这一问题只分成了两种原子行为:合作和对抗。在真实世界的囚徒困境中,这些选择可能会有所延伸,而且不同的策略可能会带来一连串连锁反应,从而影响合作的程度。在本文中,研究者提出了一种名为序列囚徒困境(SPD)的问题,以便更好地捕捉前述特征。
在文章中,作者提出了一个深度多智能体强化学习方法,可以探索在 SPD 问题中相互合作的演变过程。研究者的方法分为两步:第一步是线下过程,通过不同的合作级别整合策略,然后训练一个合作等级检测网络。第二步是在线过程,一个智能体基于检测到的对方的合作等级,逐渐调整并选择自身的策略。研究者认为,他们提出的方法可以在两个有代表性的二维 SPD 问题中展示:「苹果-梨」问题和「水果收集」问题。实验结果说明,研究提出的方法可以让智能体避免被具有掠夺性的对手剥削,同时和有合作意向的对手达成合作。
本届 DAI 大会最佳论文荣誉提名奖授予给谷歌研究院(Google Research)的 Song Zuo,他从线性规划的新颖视角解读了迈尔森的最优拍卖理论。
标题:Rediscovery of Myerson's Auction via Primal-Dual Analysis
作者:Song Zuo
论文地址:http://www.adai.ai/dai/paper/36.pdf
最优拍卖理论是由迈尔森(Myerson)于 1981 年提出的,该理论力图解决在给定信息分布的情况下,如何设计出某种制度来最大限度地激励经济活动的参与人,也就是最优合同的设计问题。2007年Myerson凭借这套理论获得了该年度的诺贝尔经济学奖。
在这篇文章中,作者用完全不同的方法(线性变成和原始对偶分析)重新发现了Myerson的最优拍卖。具体来说,他同时考虑了贝叶斯(贝叶斯激励兼容+贝叶斯个人理性)和支配策略(支配策略激励+事后个人比例)的实现方式,其中所有购买者都具有加法估值和准线性公用事业和所有估值均分布在有限支持下。当购买者价值为一维且独立分布时,可以直接证明贝叶斯实施线性程序的双重目标不超过主导策略实施线性程序的双重目标。换句话说,在贝叶斯和主导策略实施下的最优收入是相同的。
据论文作者观察,若把双重计划解释为最大化的虚拟福利,便可将Myerson的最优拍卖直接解释为“主导策略”线性计划。此外,作者还描述了BIC = DSIC的充分必要条件,即贝叶斯实现的最佳收益等于主导策略实现的最佳收益(BRev = DRev)。条件是当且仅当独立于虚拟价值函数的 DSIC 和后 IR 虚拟福利达到最大值时才能获得最优 DSIC 收益 DR-EV(一个买家的虚拟价值独立于其他买家的估价)。
雷锋网报道。
相关文章:
姚期智、刘铁岩主讲,Noam Brown、田渊栋讲习,首届国际分布式AI学术会议议程全公布
中国学术力量不容小觑,首届华人带头的国际分布式人工智能学术会议将于北京召开
雷峰网原创文章,未经授权禁止转载。详情见转载须知。