需要什么样的智能助理，是《棋魂》中的佐为还是蜡笔小新？

本文作者：袁峻峰

2017-01-12 20:50

导语：智能助理的定位不是提供各领域问题的专家建议与预测，而是在收集相关信息的基础上，结合其强大的计算能力为决策提供合适的事实信息以及可选的方案。

雷锋网按：本文作者袁峻峰，花名观妙，蚂蚁金服人工智能部，复旦金融学硕士，FRM金融风险管理师。10年以上从事金融IT相关领域工作经验，包括国内银行间市场金融产品（包括衍生产品）的量化分析、市场风险管理以及相关系统实现等。目前从事并关注于金融领域机器学习相关主题与应用，欢迎探讨。

对于闲聊机器人来说，如果告诉其你失恋了，能回个“蓝瘦，香菇”。那这聊天机器人挺牛。一定是经常更新训练数据，与时俱进。但回过来一想，求之不得的忧伤，恒久远已，天下之才独占八斗并且贵不可言的陈思王曹植，不也因为求不得写了篇《洛神赋》。诗经中也有“汉有游女不可求思”, ”求之不得寤寐思服”的句子。王菲的歌词中也有”思念是一种很玄的东西，如影随形，无声又无息出没在心底，转眼吞没我在寂默里，我无力抗拒，特别是夜里，想你到无法呼吸”。这么多样的表达。情感是难以描述的，“我们的精神状态是如此复杂，只能以类比的方式来描述”^[1]，中国历来的文人墨客最是擅长比兴手法，我们不排除“蓝瘦，香菇”是一种表达，但中文中那么更优美的表达也不该忽略。而按目前基于大量聊天样本，当客户反馈时既为正样本，通过深度学习RNN之类的模型解决Sequence2Sequence的问题。如能学到一个机智对话的蜡笔小新已是很赞，而且目前也还有很长的路。

那我们如将特定领域的问题答案做成样本，同样将其看做Sequence2Sequence映射问题。通过深度学习模型去拟合这个复杂映射函数。且不说这是个有多少人工就有多少智能的方案。可以想象这种方式《棋魂》中的佐为肯定也是训练不出来的。

需要什么样的智能助理，是《棋魂》中的佐为还是蜡笔小新？

一、理想中的智能助理

“人工智能助理：这里指的是Intelligent personal assistant/agent (IPA) ，指帮助个人完成多项任务或多项服务的虚拟助理”^[2],如何帮助？在文章^[2]中，提出对话式助理至少满足这几点功能：”具备基于上下文的对话能力，具备理解口语中的逻辑，所有能理解的需求，都要有能力履行。”^[2]但这样帮助就够了吗？能不能像YY玄幻小说中的深山偶获老法师灵体，之后在你修行中的方方面面问题中提供指导。乔布斯在一次访谈中提到”我认为展望未来50至100年，如果我们真能开发出一款设备，它可以捕捉潜在精神，或者一套潜在的原则，或者是潜在的看待世界的方式，这样当下一个亚里士多德出现的时候……也许他可以随身携带这款设备，将所有东西都输入其中。这样当这个人死后，我们就可以问这款设备‘喂，对此亚里士多德会怎么说？’，我们得到的答案或许是错误的，或许是正确。但是想到此我就已经很激动了。”这应该也是指通过人工智能借助于大师、领域专家的经验为各样的决策提供建议。那是不是理想中的智能助理定位是在收集各样信息的基础上，结合其强大的计算能力和人类已有的决策样本数据提供预测与决策建议呢？

前几天，AlphaGo升级版Master最终以60胜0负的成绩在快棋战横扫中日韩三国顶尖棋手。聂卫平赛后说：“Master颠覆了多年的定式。而且最后证明它的选择都成立。” 柯洁九段也表示：“从来没见过这样的招法，围棋还能这么下？看Master的招法，等于说以前学的围棋都是错误的，原来学棋的时候要被骂的招法现在Master都下出来了。” 李喆在赛后总结“每盘棋里，AI大部分的招，都和人类棋手的想法接近。体现了人类经验仍然具有有效性。。。人无法完全做全局运算，因此会因经验局限性而错失对当前盘面的针对性”。可想而知，结合了人类经验（样本数据），加上计算机强大的计算能力，在围棋这样的完全信息博弈游戏领域必然横扫顶尖棋手。

需要什么样的智能助理，是《棋魂》中的佐为还是蜡笔小新？

那在非完全信息博弈领域呢? “扑克这类不完全信息扩展式博弈以其随机性、信息不完全可见性、博弈规模大等特征”^[4]是不是可以阻挡人工智能的脚步。答案是乎也是否定的。“由卡耐基梅隆大学（CMU）开发的名为 Libratus 的人工智能系统即将开始一场新的挑战：试图在一对一、无限制投注的规则下击败世界最强的人类德州扑克玩家。”^[5]借助于博弈论与强化学习等模型以及专业玩家的样本数据，结合计算的强大计算能力，在这一领域的游戏中人工智能终也将完胜人类。

二、理想中的提供预测与决策建议智能助理的可行吗？

如此看来，是乎是可行的。不过还是先听听人工智能领域先驱马文·明斯基等人的意见。

莫拉维克悖论

百度百科中描述：莫拉维克悖论（Moravec's paradox）是由汉斯·莫拉维克、布鲁克斯、马文·明斯基等人于1980年代所阐释。人类所独有的高阶智慧能力只需要非常少的计算能力，例如推理，但是无意识的技能和直觉却需要极大的运算能力。如莫拉维克所写“要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。”

马文·明斯基在其著作《情感机器》^[1]中讨论了人类大脑思维运行方式，尝试设计能理解、会思考的人工智能，也讨论为什么会有莫拉维克悖论。书中明斯基提出“所有的现代程序都不具备常识性知识(Commonsense Knowledge)”^[1]所以会给人感觉有时不够智能。这些常识性知识和推理包括^[1]：

正面经验(Positive Expertise)：知道在哪种情况下该使用哪种类型知识。
负面经验(Negative Expertise)：知道不该采取哪种行动，因为可能会使事情变得更糟。
调试技能(Debugging Skills)：当常规方法不再适用时，还有其他可供选择的方法。
适应技能(Adaptive Skills)：知道这样把原有知识应用到新情况之中。

明斯基提出了框架表示常识的结构化知识表示。这属于机器学习中的符号主义（Symbolists），不同与当前联结主义（Connectionists）的深度学习。目前该领域还在探索期，已有一些基于知识图谱方面应用。并且这些常识性知识和推理难以在深度学习模型中得到解决。迁移学习也是试图在联结主义框架下将通用领域的训练结果迁移到特定领域，目前也还在探索期。需要什么样的智能助理，是《棋魂》中的佐为还是蜡笔小新？

来源：情感机器[1]

“专家是一位无须思考就知道结果的人”^[1],所谓常识可以认为是一种直觉。爱迪生说过“天才就是99%的汗水+1%的灵感，但没有这1%的灵感那99%的汗水也是徒劳”，灵感既大师在决策时的直觉。“郝伯特·西蒙对比过国际象棋世界冠军十年间不同的下法，认为这是这是全部职业强选手的集体经验而积累起来的知识的结果。专家和新手区分不仅仅是前者具有大量和多样的信息，而且是他的直觉经验使他能发现他所面对的形势中的熟悉模式，长期记忆中储存大量的棋子的共同模式，通过识别这些模式，从长期记忆中重新找到大量相关信息。”^[5],这些并不需要大量复杂的全局计算，而“AlphaGo中使用蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS)结合估值网络（Value Network）来做可选方案集合选取。”^[6]两者完全是不同的途径。目前要让人工智能有如小孩般的学习能力与通用常识都很遥远。更别说像大师、领域专家为各样的决策提供建议。扎克伯格在搭建他的智能助理Jarvis时也说“我们距离了解学习的本质仍然很遥远，我们仍然不知道将如何从一个领域中获得的想法应用到另一个完全不同的领域中去。“^[7]

数据，样本在哪里？

另一个问题是，目前的深度学习需要端到端的样本数据。AlphaGo是使用段位以上围棋专业棋手对弈样本，并通过自我对弈扩大样本数。而智能助理面对个人方方面面的任务、事件，更加无法得到那些专业的正样本数据。并且每个助理面对客户的情况都是不同的，个体都是独立的，不可能得到训练所需的样本数据。

不可能获得实质理性所需的全局信息

罗振宇在跨年演讲中说道“在人工智能逻辑里，它不关心人类对一件事情的定义，但是它可以输出你要的答案。只要有大量的数据，它就能用跟人完全不同的思路，达到同样的结果。”真是如此吗？笔者并不认同，人工智能是和人的思维不同，但不等于有大量数据就能得到同样效果或更好效果。因为“我们知道，通过深度学习和大数据，一定能得到一个更优的模式识别效果。但前提是我们假设未来和历史特征向量是符合同一概率分布。未来当然不会和历史是同一概率分布，就像彼得·林奇说的‘你无法从后视镜中看到未来。’哈耶克也说过‘我们做出的预测有可能被否定，因为他们只具有经验的意义。’”^[6]哈耶克举过一个例子，对一场足球比赛，如果我们熟悉球赛，了解球队，并可以监测赛场上每一刻球员状态包括心肺、肌肉等等，但球赛的结果还是超出了科学预测的范围。因为我们的基于经验的预测能力也仅限于事件的一般特点，并不包括预测每个具体事件的能力。所以即使有足够的数据，机器也不一定能得出比从1990年起每次国足比赛都押输更牛逼的策略。

另外一点是，智能助理能得到每个具体事件决策所需要的所有信息吗？即使人类生活在《黑客帝国》电影中的Matrix，其中的机器人主宰也不是能掌控所有信息，如电影所说总有些自由意志是不可知。哈耶克说过“社会的经济问题就是一个知识利用的问题，而这种知识并没有完整的给予任何一个人”。所以即使在大数据时代也不可能获得全局知识与信息。

三、智能助理该做什么

既然智能助理定位不是在收集各样信息的基础上，结合其强大的计算能力和人类已有的决策样本数据提供预测与决策建议。那是不是可以退一步，定位在收集各样信息，并辅助人类决策呢？根据诺贝尔经济学奖，图灵奖获得者郝伯特·西蒙的不确定性环境下决策理论：应当是有限的理性，而不是全知全能的理性；应当是过程合理性，而不是本质合理性。过程理性决策步骤可以参考文章^[6]中描述。再结合智能助理的定位，我们可以设想智能助理需要实现如下功能：

前提：客户信息收集以及相关领域信息收集
“具备基于上下文的对话能力，具备理解口语中的逻辑”^[2].
提供决策相关信息以及可选方案集。
在特定领域辅助履行。
决策后跟踪相关信息，获得新数据，是持续优化决策的过程。

前提：客户信息收集以及相关领域信息收集

智能助理需要收集客户的个人信息，这不只是千人千面的客户标签画像，而是认为每个人都是独立的个体。电影《Her》中人工智能萨曼莎是位称职的智能助理，她被启动后立即申请是扫描主人公的硬盘。在扎克伯格的Jarvis 不但控制了他家的全部家电、门禁，还包括收集个人生活偏好。“一个AI系统就能越好地处理开放式问题。我经常只对Jarvis说‘播放音乐’，它会查看我过去的听歌习惯”^[7]。授权智能助理收集个人信息的前提是信任，使用者必须相信电影《Her》中智能助理萨曼莎同时和8316个人沟通同时，每个智能助理都是独立的并能保护每位使用者个人隐私。

这些天北京又持续爆表雾霾，是否要让孩子离开北京，是很多家长非常纠结的问题。吴晓波在文章^[8]中为卖房去大理的宽宽做了一个财务规划。如果这个问题提给智能助理，其需要收集宽宽当前财务以及房产情况，并以宽宽的名义询问各银行二手房按揭利率信息，以及了解大理房价信息，是否有购房限制等等。这些都是智能助理需要收集领域知识与信息。

提供决策相关信息以及可选方案集

参考文章^[8],在宽宽提出移居大理后，智能助理应该根据之前收集的信息给出以下两个方案：

1）卖房530万，购大理房一次性付款130万元。400万理财。

2）抵押房子给最优贷款条件的银行，贷款利率5.4%，拿到159万元买大理房。每年需支出利息8.58万元，房屋租金9.6万元。

如何抉择并不是智能助理的职责。宽宽可以听从吴晓波基于他的专家经验，认为“人民币正处在一个不可逆转的贬值周期中…最保守的计算，未来M2维持年均10%的增速”^[8]得出结论是“所以，请你“抛弃”北京的时候，尽量不要抛弃北京的房子。”^[8]。但宽宽也可以认为既然人民币正处在一个不可逆转的贬值周期中，那将400万换成美元理财、基金。如果房价未来以美元计价跌了，那么她再买回来。又或是她在大理找到更加明确的人生的真谛，选择了新的生活方式，不愿再回北京，那北京房价再高也和她没有关系。这些都是她的决定，无法让智能助理代其抉择，但智能助理可以提供方案以及可能的后果。

在特定领域辅助履行

在电影《Her》智能助理萨曼莎在评价主人公文章的价值后，将其文章发给出版社编辑从而得以出版。忽略其中代替决策的部分，能知道如何在特定领域辅助履行决策已是很难。就和知道特定领域收集什么信息一样困难。目前这方面多是基于专家经验的模板实现。

决策后相关信息跟踪，获得新数据，是持续优化决策的过程

持续跟踪相关信息，再有新的重要信息告知用户。比方如果北京房价跌了，宽宽的美元理财、基金涨了，北京空气持续优化。这时可以让宽宽抉择是否购回北京房产。如果相反那就不用说了，免得添堵。

预测重要，但也没那么重要

在上面买房辅助决策中，并没有预测十年后房价，也没有预测利率、汇率，或他们未来可能的生活方式。而是提供当前事实性的信息，可贷款信息，房价信息等，以及可选的方案。当然，如果能准确预测未来房价，那就是个规划问题。目前看来，未来之眼的机器并不存在。而且如果人人都一个完美预测的机器，那就引入新的变量，原有的预测都又不准了。另外一点，目前也不可能每人都有AlphaGo的计算能力，有篇报道称在2015年10月的公布的版本, AlphaGo使用一千多块CPU及一百多块GPU，围棋还只是完全信息博弈游戏。

既然无法准确预测，那就提供可选方案对当前决策缓冲预测误差影响。如用400万换套小些、远些的房子。

四、总结

本文认为，基于端到端样本数据的深度学习模型并不是智能助理的唯一模型。智能助理的定位不是提供各领域问题的专家建议与预测。而是在收集相关信息的基础上，结合其强大的计算能力为决策提供合适的事实信息以及可选的方案。应该是需符合郝伯特·西蒙的不确定性环境下决策理论，以过程理性解决问题的持续优化的过程。不只是预测。

参考文献：

[1] 马文·明斯基. 情感机器[M]. 浙江人民出版社.2015,12.

[2] Mingke.为什么现在的人工智能助理都像人工智障？[OL].S先生.2016-11-21.

[3] 袁峻峰. 投资版AlphaGo系统探讨 [OL]. 蚂蚁金服评论(公众号). 2016-03-14.

[4] 机器之心编译. 业界 | 人工智能将挑战德州扑克，与人类争夺20万美元奖金[OL]. 机器之心. 2017-01-06.

[5] 胡裕靖，高阳. 扑克游戏中的不完美信息博弈[OL].

[6] 袁峻峰. 结合AlphaGo算法和大数据的量化基本面分析法探讨[OL].大数据文摘.2016-11-25.

[7] 扎克伯格.扎克伯格开发笔记：打造Jarvis的日子，我庆幸自己从未停止过编程[OL].雷锋网.2016-12-22.

[8]吴晓波. 在大理的你，请好好呵护北京的房子[OL]. 吴晓波频道.2016-11-30.

作者联系方式：邮箱yuanjunfeng_fr@163.com , 微信 jake-80 。

雷峰网特约稿件，未经授权禁止转载。详情见转载须知。