智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017

本文作者：张利

2017-07-10 10:32

专题：GAIR 2017

导语：7月7日～9日，雷锋网承办的第二届 CCF-GAIR 全球人工智能与机器人峰会在深圳举行，智融集团CTO齐鹏带来了主题为《AI+金融的实践与想象》的演讲

雷锋网消息，7月7日～9日，由 CCF 主办，雷锋网、香港中文大学（深圳）承办的第二届 CCF-GAIR 全球人工智能与机器人峰会在深圳举行。在第二天的金融科技专场中，智融集团CTO齐鹏带来了主题为《AI+金融的实践与想象》的演讲。齐鹏曾任职百度网页搜索部技术经理、高德事业部副总，如今是智融集团CTO。

智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017

以下是雷锋网整理的其演讲全文：

二问“人工智能是什么？”

人工智能是什么？每个人都有自己的理解。今天的金融专场有金融专家，也有人工智能专家，所以我们从最简单的例子讲起，比如如何识别一只猫？传统上，要识别一只猫，需要人定义规则，继而机器去实现。在这个过程中，我们可能需要猫的轮廓、纹理、颜色等特征，从这些特征中找到规则，以实现自动化图像识别。但猫的耳朵可能会藏起来，可能会背对着你，在这种情况下，就识别不了了。

智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017

人工智能出现后，我们有了新的技术手段。人工智能处理问题的过程，相当于我们对一个问题进行数学描述，继而机器帮我们找到对应显著特征，找到能够证明一张图片上是否有一只猫的显著依据。

人工智能改变了人和计算机的交互方式，首先，我们要明确解决的问题是什么、问题的复杂度，找到复杂问题的描述，针对这个数学描述，基于大数据，明确描述的函数。其中，有一些理论方法通过反复迭代和具体调参，可以明确用什么样的函数来描述这些问题。所谓函数，在人工智能中对应的不同模型，可能是深度学习模型，其实就是一个神经网络。神经网络中的不同连接方式决定了对复杂问题的解决程度。比如我用了线性模型，其次决定能解决什么复杂程度的问题，之后决定用什么样的数学函数描述这个的问题。

智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017

人工智能到底是什么呢？

首先要知道这个问题是什么？而这个问题在客观世界是通过数据表达的。数据分为2部分，一是特征，一是样本。这两部分数据决定了我们对现实世界认识的上限，但这个上限永远没有办法突破。所谓人工智能，就是找到一个函数来描述这个问题，描述的过程即是拟合，基于样本数据进行预测，那么，如何保证预测有效呢？明确问题是同类型问题，而随着样本扩大，局部世界的抽样会越来越逼近现实世界，数据预测也会越来越有效。

其次，考虑场景是什么？在中国，金融是少数人的金融，有一些现代的方法可以预测金融风险，要首先是确认数据够全、够多、数据覆盖准确度高。但中国大多数企业并没有这样的数据，随着移动互联网出现，越来越多的人才把自己的数字信号、数字痕迹呈现在网上。所以，我们可以做的事情就是基于人的一些描述信息，评价其对个人的金融风险有何佐证。这意味着，我们与传统金融机构处理的数据量不一样，数据产生的价值也不一样。传统金融的数据是基于逻辑筛选的数据，那些拥有弱特征数据的人群是传统金融所不能服务的，而我们能从弱特征的数据中找到依据。

智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017

总而言之，我们做的事情就是：从某个人在移动互联网上的数据信号中，找出能佐证这个人金融风险的不同依据，从而对这个人做相应的风险定价，决定这个人群是不是值得被服务的。这一过程需要做很多事情，包括选择哪些学习对象作为数据依据、基于什么目标判断结果是否符合预期。一个说的是样本，一个说的是特征。对于样本来说，这些数据决定了当下对这个问题的理解程度。而通过机器学习方法能无限逼近问题理解的上限。

机器学习又涵盖不同的技术选型，包括深度学习、线性学习方法、非线性学习方法；监督性学习、非监督性学习和半监督学习，这些算法能帮我们对一个人进行不同维度的风险定价和规划。但真正能够通过规则去定义的，仍是冰山一角，而广泛的数据能够带给我们更多有价值的信息。

金融领域如何找“猫”？

人工智能发展很快，影响了我们生活的方方面面，搜索、新闻推荐、购物等各种生活场景下都有用到。这些技术深深影响了我们的生活，就像开车一样，我们不需要造车，但如何开车需要了解，那么在金融领域，人工智能能帮助我们解决什么问题呢？

人工智能的核心是：第一如何识别并找到学习依据；第二如何支撑所有的依据，这需要具备强大的计算能力；第三，数据告诉我问题的上限在哪里，我如何逼近上限，并且可以预测未来的情况。

智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017

所以，我们主要做了三方面的工作。

柯南特征工程

第一，把原始数据加工成机器可以理解的数据过程。好比我有一个发动机，但发动机的类型不一样，其启动场景不一样，同时，不同场景下对发动机的续航能力要求不一样，能源消耗要求不一样，启动速度要求不一样，意味着在不同的场景下需要找到能够解决不同问题的有效办法。
第二，从另一个角度看，特征工程是不断挖掘数据价值的过程。在这个过程中，要考虑不同的方法。如何对原始数据进行覆盖、清洗、弥补；如何找到异常值；如何在模型应用的时候保证应变量的调优以及如何做智能降位确保模型的量化能力。
经过24个月的迭代，我们的产品已经能够挖掘出1200多个基础维度特征，这可作为判断依据，帮助我们尽可能刻画一个人的生活数字信号。具备了特征工程和学习对象后，相当于我们有了学习书本，学习书本背后带给我们的就是相应的知识。
最后我们要解决的问题是：基于样本的模型有多可靠。这一定程度上取决于输入丰富程度。如果学习输入丰富，那我们需要做的事情就是如何变成一位好学生，充分感知到背后数据的信息和价值。

智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017

D-AI机器学习模型

首先，我们需要判断数据的覆盖、数据的准确性、数据的维度和数据背后和问题之间的相关性。如果是线性相关的，就要符合线性相关的要求，我们需要对特征做相应的加工和处理。如果发现数据相关性并不是线性的，就需要考虑如何用非线性的数据函数描述问题。所有的数据函数，我们都可以称之为一个模型。说起模型，不同的问题需要有不同的解决方法和对策，所以，对于不同的数据源、不同的数据质量、不同的数据类型，在不一样的情况下，我们需要选择什么模型刻画问题。
选定模型后，逼近上限的过程中一定有调参，即模型迭代。
下一步，需要通过大量数据帮助计算机更聪明。人可以通过少量数据进行推理，计算机不可能做少量数据推理，但大量数据推理是完全可以胜任的。机器学习方法背后的支撑是大数据处理能力。所谓大数据处理，包括以什么样的方式从外部、从内部接收，之后做数据的持久化。
最后，如何做计算支持、服务支持。

智融集团CTO齐鹏详析：AI如何处理金融领域的弱特征数据？丨CCF-GAIR 2017