数据驱动人工智能的实践 | 雷锋网公开课

本文作者：温晓桦

2017-02-18 00:49

导语：金融、医疗、营销……数据驱动的AI框架，可以带来哪些作用？AI如何在这些应用领域落地？

随着时间的推移，人工智能（AI）技术已经形成学术与产业联动发展、向前推进的态势。不管是说风口还是机遇，AI对科技产业创新的力量不言而喻，而在该领域积累了相关技术实力的研究者、企业创新者也希望赶上时代的列车。本次雷锋网AI金融专场硬创公开课第一期，我们邀请到百度金融首席数据科学家丁磊博士，来分享他关于人工智能技术在商业领域的深度思考。

嘉宾简介

丁磊博士是百度金融首席数据科学家，曾任职汇百川征信CTO，及PayPal全球消费者数据科学部负责人。丁博士曾在斯坦福大学学习管理，先后在哥伦比亚大学和IBM Watson研究院工作，具有在大数据、金融等领域十多年的从业经验，在人工智能和大规模机器学习等领域有丰富的成果。

数据驱动人工智能的实践 | 雷锋网公开课

右一为丁磊博士

以下是雷锋网对演讲进行了不改变原意的编辑：

晚上好，感谢大家在周五的晚上和我们一起探讨人工智能这个话题。我在国内外从事AI有十来年，涉及了AI在多媒体理解、社交、广告、营销、金融等领域的产品与研发工作。在这儿，我想跟大家分享一些自己的从业思考。

数据驱动的AI框架，可以带来哪些作用？

说到数据，毋庸置疑，是咱们这个时代很重要的资产。大家常说大数据有“3V”：volume，数据量，从TB到PB甚至更大的数据。variety，多样性，包括结构化，半结构化，非结构化的数据。velocity，速度方面，包括批处理，准实时，实时的数据。

如果说数据是原油，那么我想，AI就是从原油中提炼各种高价值产品的加工厂。从数据中发现知识、洞察、和规律，这本身并不是一个新的概念，从开普勒的时代就有，那就是开普勒从几百页的天体位置数据，在当时算是大数据中，提炼、总结出了天体运动的三定律，现在还在被使用，也就是我们熟知的开普勒三定律。现在，AI帮助我们实现了的是，借助大规模云计算的方法，从海量数据中自动学习知识和规律。做好AI并不容易，接下里我会跟大家详细探讨一些经验。

作为数据驱动的AI框架，可以给我们带来哪些作用？总的来说：

首先，它可以带来个性化的体验。例如当我们进入到一些网站，可能会发现许多个性化的针对每个人的体验，这些体验让网站不再是千人一面，通过数据驱动的AI框架可以为每一位访客做出优化。
其次，作为一个数据驱动的AI框架，可以带来细粒度的行业策略，企业可以采用精细化的运营方法。相对于个性化的体验来说，细粒度的行业策略更侧重于企业端。例如，过去做营销，一个产品的适用人群可能是一定范围内的男性或者女性，这是一个比较粗的描述。用数据驱动的AI框架以后，我们可以得到一个比较细的描述，比如我们可以理解基于年龄、兴趣爱好、行为等因素的目标客户群，从而得到细粒度的营销策略。
第三，作为一个数据驱动的AI框架，可以带来知识和洞察。我们去学校或者在经验中都可以学习到知识。那么，数据驱动的AI框架带给我们的核心价值是持续地运营化地从大数据中挖掘知识、学习知识的能力。这个知识未必是写在教科书上的，而从数据中可以实时地、最大体量地、同时也是有效地获得知识，用于生产和业务实践中。类似地，从数据中获得的洞察也可以带来同样的价值。

说完这三点，接下来谈谈搭建PayPal AI平台的经验。从2012年到2015年底，我带领团队构建了AI平台并服务于全球数亿的用户和百万级的商家，优化了他们的购物体验。通过AI平台，作为商家可以运营化地预测用户的行为从而精准的和他们对话。

具体而言，AI平台包括：动机引擎、推荐引擎、以及优化客户生命周期的NBA（Next Best Action）引擎。这几个引擎部署在基于Hadoop和Spark的大数据平台之上，跟海量的底层数据无缝衔接。其中，

动机引擎通过AI技术，预测用户在某一个时间点的行为，包括点击广告、兑现优惠卷、购买商品等。

推荐引擎连接用户和他可能感兴趣的商家或商品，做出恰当的推荐。

NBA引擎则通过AI技术优化在每一个时间点，商家采用什么样的策略，能够最有效的与用户互动。

那么这个AI平台如何发展起来的呢？首先，需要理解业务的需求和KPI，整合相关数据集，然后建立基于回测的概念验证，运营化生产和迭代整个体系。经历了几年的历程，团队逐渐构建了比较完善的AI平台，为各方带来了显著而持续的收益，也提升的用户的体验。从效果上来说，AI平台使大部分营销活动的有效增益提升了2倍以上，有些达到了数倍之多。

从DIKW金字塔和人类感官的演化谈AI：去平均化的应用领域

所谓DIKW金字塔包括四层，即“D-数据”，“I-信息”，“K-知识”，“W-智慧”——每一层代表人类对客观世界认识的一个层面。最底层的是数据、上面依次是信息、知识和智慧，构成了金字塔形的结构。

从数据到信息是传统IT比较专注的领域，通过数据库系统和ETL引擎，主要把相对粗糙、未经整理的数据转化为信息。所谓信息即结构化的产物，可以理解为数据库中的表等实体的总和。

而信息到知识是AI所做的事情，这个转化过程与数据库运算不同，因为它不是机械的数据处理和整合，而是从信息升华到知识的过程。

其核心之一是去平均化，这是人工智能帮我们做的很重要的一件事。例如，在营销领域，对于一个公司来说，平均客户价值是一百元，去平均化的过程告诉我们，不同客户对应的价值是不同的。这个可以通过AI，从过去的客户行为数据等属性中学习出来，建立自学习模型，预测每个客户的价值是多少。这些都非常有价值的信息。客户的实际价值，可能和与平均值差很远。

不光客户的价值，客户是否会购买一件商品，喜欢什么样的商品，以及如何促成一次购买，等等这些问题，都可以通过AI技术来帮助回答。

去平均化的应用领域不仅局限于营销领域，在其他商业相关或者医学相关的其他很多领域，都有很多去平均化的应用。好比医疗领域，基于医疗病例预测得坏血病的概率和再入院的概率，能够帮助医院挽救病人和降低医疗成本，这些应用已经在美国的一些大医院里开始使用。

人类感官的演化历程，如何定义AI系统模拟人脑的复杂性？

换一个视角，我们可以看看人类感官的演化历程，如何定义了AI系统模拟人脑的复杂性。

众所周知，计算机视觉，包括图像和视频识别等，其难度在感知类别的AI里是比较高的。我想其中一个原因是，人类视觉系统源自原始动物的视觉系统，这个演化时间最长，超过了2亿年。

相比而言，交流用的有声语言演化了有10万年左右，而文字只演化了5千年左右。这样的演化历史，也符合AI处理语音和文本的难易程度。文本理解已经相当普及，而语音识别逐渐开始进入千家万户。我想，人工智能的难易程度是符合人类感官演化的。

如此类比，现代的专业知识，好比金融和医疗这些领域，它们的演化的时间不超过几百年。尽管有种种挑战，这些知识的演化历史印证着AI在这些行业的应用，可以取得比较显著的效果。

数据+AI带来的核心能力：海量数据支持下AI决策可以超越人脑

这里引用著名的科技思想家Kevin Kelly的一句话，说“AI是认知化”。如果说电力化带来了人工动力，那么认知化带来了人工智能。结合前面讨论的演化观点，我认为：感知方面，包括AI的视觉、听觉等，AI可以接近人脑。在支持专业决策的方面，在海量数据的支持下，甚至可以超越人脑。

举两个例子，分别是图像识别和金融风险控制来说明这点。图像识别方面，在权威的ImageNet图像识别竞赛的评测里，2010到2015这五年内，通过深度学习一系列的算法，计算机对1000多类物体的识别——就是让计算机给每张图片标注1000类中的一个类别，错误率从30%下降到5%，识别效果有了非常大的提升。

金融风控领域中通过AI输出模型的KS值，通常用来衡量风险识别有效性的一个指标，也可做到40%-50%甚至更高，有效的控制住风险，效果可以超越传统的人工方法。

数据，本身反映了事物的原理和规律。当你找到它的规律后，它可以去预测未知或未来的事情。因此，“数据+AI”的核心能力为我们构建了一个发展中的产业生态。这个生态分为两层：

底层是应用技术，包括机器学习、图像语音处理、自然语言及一系列相关的硬件技术。
而上面一层是和场景相结合的应用，包括两大类：第一大类面向企业，包括行业应用，例如金融、医疗、教育等；另外在每个行业都有交叉的维度，也就是职能应用，例如营销、BI、CRM、安全等相关的职能。职能应用和行业应用构成二维的矩阵，AI在其中有很多的应用场景。第二大类是消费类应用，例如智能家居，辅助驾驶，智能机器人等，在其中AI也开始崭露头角。

说了这么多行业、职能和应用领域，其实不是所有领域都适合大范围使用AI。满足大规模商业应用的AI，应具备两个必要条件：

其一是数据的质量和数量必须达到一定的要求，尤其是整个数据流程的打通和定期的数据更新。这决定了AI发展的基础是否牢固；
其二，所在领域有没有对问题的相对清晰的定义。如果领域本身没有明晰的问题定义，则很难通过AI来解决问题。总体来说，金融行业已经比较接近这两点要求；职能来说，营销、BI、CRM和安全等在一些行业比较接近人工智能大规模使用的先决条件。

AI落地的挑战和思路

过去一段时间，我接触过很多公司，也发现其中存在的一些存在共性的挑战和思路：

第一，数据方面，有价值的数据已经在你的数据库里，很多时候是因为不懂得去挖掘数据价值，容易错失了利用AI的机会。举个例子，通过AI预测电商网站的访客价值。此前我任职的一个创业公司，通过AI算法优化了全球出行网站每月上亿UV的用户体验。

具体来说，通过一些实时抓取的行为数据，预测访客的购买意愿和购买价值。对不太可能在本站上购买的访客，这个其实占的比例非常高，有时候达到97%，那么这个时候，我们可以推荐给他们其他的可能感兴趣的出行产品。这个产品的结果是大幅提升了出行网站的收益，并优化了用户的体验。总结一下，如果不能挖掘这些现有数据的价值，就没法产生这样的创新模式。

第二，人才方面，我觉得业界最缺的是AI产品经理。跟国内不少公司交流过，AI问题的复杂性之一在于结果的不确定性，而具备AI背景的产品经理少之又少，不能够很好地判断价值与方向，进而会导致相关产品或项目的搁置。当然这里面也有人才培养的问题，例如可以尝试鼓励优秀的AI工程师和科学家去主导相关产品的开发，在业务的指引下，充分发挥专业人才的积极性，探索可行的方向。

第三，跨领域和团队的交融与整合，打通数据的闭环，产品、工程、AI的紧密结合。这个需要比较长时间的磨合。在我们之前构建AI平台的经历中，涉及大量跨团队沟通、配合、相互支持的工作。AI得以有效实现，工程能力的建设尤为重要。AI不光是算法问题，由于大数据的体量、种类和实时性要求，如果没有强大的数据处理基础设施，很难在大数据上进行持续和大规模的AI应用。

举个例子，基于实际的需求，我们常用一种比较受到推崇的“lambda”架构，这个架构包括以下组成部分：

批处理层，支持批处理读写和分析处理；
服务层，支持批处理写入和实时读取；
速度层，支持实时读写，把时效性非常高的数据在很短的时间内反应给用户。
这些层整合起来构成了一个可以支撑大规模AI的基础设施。

第四，AI落地中信任的问题。我觉得在解决行业实际问题里，很多瓶颈来自于信任的缺乏。信任本身是个很大的话题，在技术的层面上，这包括了对数据和对算法的信任。因此，一定范围内的数据共享可以增加信任，并可以带来全新的知识和洞察。一个相关的技术——区块链技术大家可能有听说过，简单来说是一个分布式的可信任的数据基础设施。基于这项技术的一个例子，最近荷兰16家公司组成的物流区块链联盟，通过这种形式的物流数据共享和打通，能够增加他们彼此间的信任，从中长期来看更有利于AI的落地。

综上所述，如果解决了这些问题，我相信企业会有比较大的空间利用AI来升级，不仅是行业中的大企业，中小企业也有很多的机会。运用AI领域的最佳实践，快速概念验证，风险可控的前提下落地生产，我相信将带来广阔的空间。

雷锋网注：本次活动为丁博士个人经验分享，观点不代表百度。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

6人收藏