大数据征信如何为一个人建立数据肖像？| 雷锋网公开课

本文作者：林藠头

2016-11-10 23:02

导语：每个人每天会产生无数的信息，征信机构如何从这里面抽丝剥茧找到有效的数据，又如何给每个数据设置合理的权重去建立模型？

“凡走过必留下痕迹”，大数据时代，你的一举一动都在为你建立一个电子档案，从你有多少张信用卡、每个月消费多少、还款记录如何到你喜欢浏览什么网站、手机是什么型号甚至IP地址对应的位置，有一万多个词条可以刻画你的肖像，银行在不需要跟你打交道的情况下可以靠这种数据肖像决定要不要给你放款、放多少合适。这就是大数据征信。

每个人每天会产生无数的信息，征信机构如何从这里面抽丝剥茧找到有效的数据，又如何给每个数据设置合理的权重去建立模型？机器出现故障之后又如何修正？我们请到了在征信上有多年经验的嘉宾、冰鉴科技创始人兼CEO顾凌云来为我们解答。

顾博士是卡耐基梅隆大学计算机博士，毕业后在华尔街做对冲基金中高频交易的算法工程师，两年多后作为创始成员加入 Zest Finance（一个美国的金融科技公司，主营业务是信用评分），顾博在 Zest Finance 全面负责模型组的研发工作，三年开发了6代模型；离开后去了小微企业征信和借贷的机构Kabbage 担任首席数据科学家。顾总是征信方面的权威专家，曾获得过“中国征信50人”的称号。

大数据征信如何为一个人建立数据肖像？| 雷锋网公开课

冰鉴科技创始人兼CEO 顾凌云

以下是本次公开课的内容，顾凌云口述，AI金融评论（微信号aijinrongpinglun）整理。

先想说一点有意思的题外话，我后面很可能都会直接用语音，但实际上现在所有这些文字，我也都是直接通过说话然后通过语音识别转化成文字，这实际上就是机器学习和人工智能的一种应用。苹果使用的Siri语音识别算法，有一部分就是我在卡内基梅隆大学时候博士阶段论文的一部分工作，我举这个例子的意思其实是想告诉大家，人工智能其实进入我们的生活已经有一段时间了，但实际上很多人工智能最终都需要通过人工来进行干预，所以实际上真正人工智能最具有挑战的是它的最后1公里。

那为什么在开始这段语音转变文字之后，我会直接使用语音？那就是因为在最后的自然语言处理当中有一些小的问题语音识别和自然语言处理还不能完成，比如她/他的自动识别，专业单词的准确判断等等，所有这些问题其实在我们进行金融和征信领域的工作当中同样存在。

从数据获取到“清洗”以及建模，到最终获取客户的整个流程里最困难的部分，做大数据征信的（技术或者商业）壁垒在哪里？

很多人可能都会问我一个问题，那就是今天的征信行业有这么多人进入，逐鹿中原，它到底什么时候会变成红海？现在的蓝海还有哪几块东西可以做？如果说是任何一家以技术起家的征信公司，如果它们想要做得比较好的话，核心竞争力在哪里？

实际上所有这些问题，最后都会归结为几个不同的方面。在这里，我可以简单地介绍一下建立几个好的模型的步骤：获得数据之后，第一步是原始清洗——基于技术数据；第二步是变量选取；第三步变量整合，第四步单一模型的建立；第五步，五多模型建立。每一步中都有许多细节的工作需要完成。

如果今天市场上有100家征信公司，那我可以肯定的说——100家号称自己做征信的公司中，80家是依靠于自己的特殊资源在做简单的数据贩卖的工作，通过自己独特的渠道获得独特的数据，而些依托于自己本身特有场景所产生的数据源变成了目前市场上成为绝对主力的征信公司。真正依托技术做征信的公司实际上并没有那么多。

而在我们看来，真正的征信公司不仅仅是能够产出原始底层数据，关键是应该根据原始数据所带有的特质进行量化提纯工作，并且最终这些可以体现在信用决策上。真正能完成这些的公司并不多，去掉那些贩卖数据的公司，现在征信公司剩下20%都不到。

而在这20%的公司当中，实际上又有很多公司并不是真正的我们意义上的第三方征信平台。实际上他们都是依托于自己本身所拥有的借贷环境——一方面在通过放贷积累数据，另一方面通过自己的建模工作同时提供征信。这样的商业模式并没有问题，但是从某种角度来讲，这样的公司即扮演运动员的角色又扮演裁判的角色，但是在今后中国的征信市场如何看待这样以借贷起来的征信公司，我想还是会有比较长时间的争论。

很多人都会问，一个技术起家的公司，在数据清洗方面到底有什么地方能跟其他公司做得不一样的。这一点上，我想分享一个有意思的应用场景，做机器学习，我们可以把几乎所有的场景变成两个类别Supervised learning（监督学习）和Unsupervised learning（无监督学习）。在这两个场景场景当中，当我们在进行无监督学习的时候，我们并不需要一个人还贷记录这样的好坏标签，我们可以通过一些其他的变量，来判别和进行大的类别的划分。而监督学习或者分类过程中，我们应该让一开始机器先找到一部分找到好坏标签新进行学习，然后再对新进人群进行判断。

在这样的情况下，我们有必要先对建模的基本概念进行阐述，这样我们才能知道对于数据的处理应该聚焦在什么地方。首先，我们在进行有监督学习的时候，我们往往会在方程的两边进行判断。而方程的左边我们叫因变量，或dependent variable，是一个人在之前是否有过还贷记录，也就是我们所谓的好坏标签，而另外一边是描述这个人各种各样的信息，我们叫做自变量，也就是independent variable。

当我们做了这样的定义以后，对于数据的处理就比较清晰了。我们或者要聚焦于对因变量进行处理，或者聚焦对自变量进行处理。

我们先从对于因变量的处理开始，大家可能都知道一个征信公司到底能做的多好，他的数据量有多大是至关重要，而很多人遇到的瓶颈问题就是，他们很难搜集到各种企业和个人进行还贷的历史记录，很少有企业能够完成因变量大规模积累的工作。

这一项工作，在美国如果我们完全不需要人工智能或者机器学习的介入，最传统解决办法我们叫reject inference（拒绝推断）。也就是，当我在这里没有办法在自己的场景当中获取其他人的好坏标签的时候，我们往往会通过其他的征信局或者其他的放贷机构，进行交换或者购买好坏标签的形式来获得。在中国初创征信坏境中，这样的方式十分困难，因为大多数机构都想获得别人的而不愿意分享自己的。所以从这个角度来讲，指望通过reject inference，通过别人的借贷来获得信息就比较困难。

那些在机器学习当中，我们有什么解决方法呢？有两种：self-training and transdurant （SVM）。当我们明确知道有一些是好的和有一些人是坏的前提下，通过一个分类器对其他未知的变量的进行处理的过程中，能够通过一些自适应的学习方法把在未知的人群中把有明显倾向的人分成好的和坏的。

在方程式的右边，对于所有的自变量，我们有什么方法处理？传统意义上来讲，我们获得所有的变量之后，第一步是变量选取或者整合。而变量选取和整合，在统计和初步机器学习过程当中最常用的是stepwise （逐步回归），它分为forward stepwise（前进逐步回归）和backward stepwise（逐步后向算法）。顾名思义，stepwise就是通过一个一个把变量拿出来和放进去的方式来决定哪个变量比较重要。

比如，现在我一共有10个变量，我并不知道哪一个好哪一个坏。最常用的方法是，我把10变量都留在里面做一个模型，然后扔掉一个变量再做一个模型，然后再扔掉一个变量做一个模型，以此类推。大家就能看到，10个变量做的模型和9个变量做的模型相比较结果差异到底有多大。那么以此类推，8个，7个都是一样的。我们就能判断每个扔掉的变量扮演的角色到底有多重要，从而判断这是不是一个该留在模型的变量。

那么问题来了，10个变量到底该先扔谁呢？

那么在机器学习的过程中我们有一个新的方法叫lasso的方法来处理这个问题，它可以在多维度空间的方向中进行搜索，选择哪些是重要的哪些是不重要的。

在我讲的这些对于数据清洗的过程，某种程度应该都是比较小的壁垒，能够慢慢积累起来。实际上，还有很多方方面面的工作要做，（都可以形成壁垒）。

今后两三年中，哪些征信公司能够存活下来？

在刚刚一开始的时候，我提到过，中国的征信市场如果有100家征信公司，80家公司都是做原始数据贩卖的，真正以技术立足的不到20家。征信领域很多人说数据为王，很多人说技术为王，二者谁会胜出呢？那我们可以借鉴一下美国的历史，来看以后今后中国市场的走向。

我们先来看看，在征信起步的过程中，数据都扮演了很重要的角色，如果没有数据，建模就无从谈起，更不要说用什么方式建模。我要说的是，在今后征信的发展过程中，数据的获取是会越来越简单，还是越来越难？

先来看一看，数据可以被分成什么样的大类。从我个人的看法，可以分为两类，一类是依托于公共环境或者政府的背景而产生和积累起来的，这一部分我们不妨叫做行政数据，比如说汽车注册信息，学籍学历，犯罪记录等等。这些都是依托于政府或者公共设施积累起来的。另外一些就是私营企业或者上市公司，通过自己独有的生态圈产生出来的数据。

而在这样的第二类的数据中最有代表的，应该就是阿里形成的自己独有的生态圈中的电商数据，腾讯利用微信所形成的独有的社交数据，或者腾讯和网易形成的游戏数据。我们可以从另一个角度看一下今天百度的困境在什么地方。

很早之前的时候，谷歌为了击败Facebook专门制做了一款自己的应用叫Google+，就是为了取代Facebook。当时FB还不大，Google为什么要这么做？因为Google早就看到了今天百度面临的困境——那就是，大家进行百度搜索的时候都不会进行用户名登录，所有的特质信息，在百度的搜索引擎面前都是很苍白的。但是，无论是你是使用阿里的电商或者腾讯的社交，都有很完整的个人信息和轨迹，所以不同的生态圈产生出来数据的价值是完全不同的。

那么，这些数据随着征信的发现，获取数据会变得越来越简单还是越来越难呢？

第一类行政数据我相信今后会越来越简单。不管是这届政府要求大力发挥大数据的作用，还是万众创新大众创业的大背景，或是一些要求打破信息孤岛的行政命令也好，我们可以看到基于政府和公共设施的公共数据今后的获取会变得非常的简单。

如果两年前就从事征信这个行业，大家可能知道，那时候银行想要购买工商的数据——在某一段非常热的时期，一条最基本的关于企业的工商数据：仅仅包括法人是谁，什么时候注册，注册资本，经营范围，法人经营范围注册资本有没有变更，仅仅这些信息，都不包括出资信息，股份比例，其他信息都是没有的情况下每一条数据就可以卖到15块钱。今天很多平台可以免费查到这些信息，行政数据上向前买了一大步，而这一切是不以哪些主管官员的意志为转移的，愿意或者不愿意，他们都将慢慢打开信息孤岛，把这些信息联系在一起。

另外一个角度来讲，大家可能会问，那么阿里腾讯为代表的生态环境圈中的环境会开放吗？他们肯定不会的对不对？是的，他们肯定不会公开这些数据。但是，从美国到中国到欧洲到拉丁美洲到日本，所有这些早期开始进行征信的国家都证明了一点——就是数据的最终拥有者不是这些平台的托管商而是数据的产生者。也就是说，谁拥有支付宝谁拥有微信，他们这些个体才是数据的拥有者；而阿里微信他们仅仅的数据的托管平台，也就是说他们无权拒绝在授权情况下这些数据对征信供应商的使用。

总体来讲，所有数据，无论是行政还是生态圈数据在今后随着竞争激烈，一定不会出现有些人独有一些数据有些人没有的情况，最终可能是采购价格上的差异。不会是计算机1和0 的区别，顶多就是你5毛钱可以买到我只要4毛八的区别而已。

数据最后一定会成为像期货一样是可以自由的交易，不会成为征信公司的壁垒。五年十年后，中国征信领域如果还有谁是依靠独有的数据获得领导地位的话，这不仅仅可以说是中国征信领域的悲哀，甚至都可以看做是改革开放努力的一个不算成功的标志。

也就是说，单纯依靠特定信息源上暂时处于领跑地位（或者暂时有一定利润）的征信机构，如果不对自己的技术进行改造，几乎可以肯定，三四年后会是首批被市场淘汰的对象。

我认为两三年三五年后，能在征信领域快速跑出来的公司，一定是像日本的匠人一样拥有工匠精神，在技术积累、信息源的整合，在每一个细小环节都比对手领先10%或者15%的优势来获得的全面的领先地位，而一定不是单纯通过在某一个环节通过独有的信息源或者技术彻彻底底打到对方。

我的前同事李丰投资了“三只松鼠”，也许很多人说卖坚果并不是什么技术含量很高的工作，为什么三只松鼠可以做到排名第一？三只松鼠的客服称用户为“主人”而不是“亲”，听起来有些滑稽，但他把用户的感受又往好的地方提升了一步；它的产品袋子里有一个垃圾袋、湿纸巾，可以让你擦手、放垃圾，这些细小的东西本身都不能形成单一的竞争力，但是把这些因素揉和在一起，在各个微小的维度上发现三只松鼠都和竞争对手拉开了差距。

卖坚果是这样，征信其实也是一样，我觉得要从竞争里跑出来，企业的基本逻辑都是相似的。

下一个问题，我们到底怎么才能判断大数据真的对金融或者征信行业提供了帮助？

我说一个故事，我们招人的时候，我们对于在机器学习上有没有过硬背景是非常看重的，但这不是我们唯一考虑的因素。我们曾面试了好几个美国最好的学校出来的博士生，我们给他们一组数据，让他们在规定的时间返回结果，但不告诉他应该返回什么结果，相反，我们让他们自己定义到底什么样的结果才是他们满意的，为什么定义这样的指标。

事实上，十个里面有八九个都会用“准确率”来作为衡量算法是否准确的唯一标识，但是，这样的判断标准在征信领域是正确的吗？我既然这么问，显然答案是不对的。

征信的场景中，有哪些事情是我们看重的？

我举个例子，有个人说他（放贷）批了10个人，有9个证明是好的，只有一个是坏的，他说他的准确率90%，你听完后觉得他的算法是好的吗？

那么我会告诉你，这个答案不是简单的是或者而不是，他有一件事没有告诉你，真正的申请者可能有100个，其中99个是好人，只有1个坏人，而他把那唯一的一个坏人放到了批准名单里。从这个角度，虽然他批准的10个人中准确率是90%，但我们还能说这个结果还是好的吗？算法是好的吗？

在征信中，我们会把批准率和坏账率结合起来，也就是在机器学习中把precision（精确率）和recall（召回率）结合起来，才能作一个综合的判断。

当然，征信领域我们用得最多的是KS distance（KS距离），这是俄罗斯的两位数学家名字的首字母。

在金融领域，什么案例能证明机器学习有用？

我们很多模型都在金融机构的完成两个维度中至少一个维度的提高，那就是我们可以在保证批准率相同的请胯下降低坏账率，或者在相同的坏账率的情况下提高批准率。现在中国的征信刚刚起步，我们的模型在很多场景下可以既提高批准率又可以降低坏账率，这不是一个长远的情况。但总体而言，至少要做到单一维度上的提升，才可以称得上是一个好的金融科技公司。

下面一个问题，如何避免机器出错？

早年我们自己开玩笑，机器学习到底是机器学人还是人学机器，明明是人在学机器，我在卡梅隆6年才拿到我的博士学位，每天起早贪黑，科比说他看过洛杉矶凌晨4点的样子，我说这有什么稀奇的，我经常看到3点的匹兹堡。从我的经验来看，不是机器在学习人，而是人在学习机器。

举个例子，我们怎么对机器的错误进行修正？回到变量的选取，变量的选取有很多方法，stepwise也好，lasso（逐步套索）也好，最终无外乎对每一个独特的变量进行选取。可是，如果几个变量柔和在一起形成一个新的变量，最终的结果是不是比一个单一变量更好？客观上这是很有可能的，但我们怎么才能做到？机器在早期的学习中是不能完成这一的工作的。

我举个例子，我们获得一个人过去十年搬家信息，十年搬了8次，我们如果单独对变量进行选取，可能只能选取其中一次的搬家历史，人工能发现这其中的问题，其次最好的办法是对这些搬家的变量求一阶导数，这十年他搬家是越来越快还是越来越慢，只有这样的变量对我们的模型才是有帮助的。

中美两地对于金融科技的热情以及各自面临的状况和创业者机会的差别是什么？

中国过去几十年都是以美国为标杆，以抄袭美国获得所谓“创新”。美国的Google，Facebook，ebay，亚马逊，在中国都能找到门徒，这是过去的状况。目前，中国的创新企业已经在改变这一的趋势。

一个最简单的感受，过去需要花3年时间才能抄的东西，现在3个月就能抄得比较像，有的特定领域美国要反过来学习中国。

原因我认为有几个：

美国的金融业已经很成熟，主流和非主流金融人群的需求都能被得到满足，基本上没有什么需要改良的地方；中国的情况则是五大行高高在上，其他行在行政束缚下面很难迈动脚步。
科技金融在美国没有机会，在中国机会很大。P2P，美国就那么两家，而中国我们的P2P 3000家都不止，及时在银监会和央行的联手打压下还有2000多家存活下来，可见这两个地方金融环境是天差地别的。美国现在所有的数据商都很完整，大家选取数据商就能完成征信工作，而中国很多地方需要自己把各个碎片的信息拼接在一起，而这也是我们征信创业者的机会。

我手中没有水晶球，没有办法准确预测中国征信未来的样子，但我有一点是可以确定的：

中国一定不需要几百家征信公司，即便这个市场比美国大很多，我想好的情况可能是有十几家征信公司这十几家术业有专攻，主要分为两类，一类是因为有积累了独有的数据源而形成独有场景的征信公司，比如像阿里巴巴这样的基于电商数据的电商征信，或者顺丰以快递为基础的快递征信，等等——我比较大胆的预测，每个场景可能只有一家征信公司能存活下来；第二类是跨领域跨平台的征信公司，可能有5到7家就差不多了。

最后一点，人工智能在征信领域中有哪些运用？

我简单举两个例子，第一个是深度学习。深度学习并不一定在所有金融领域中都有应用，其本质是需要有场景经验来调优的更复杂的人工神经网络。所以，实际上我们要做的是在缺乏有效的很多的好坏标签的情况下，如何利用有效的人工神经网络来做递推和归纳。

那么另外一点就是自然语言处理。当我们获得一个企业的名字的同时，我们可以在全网对企业相关信息进行爬取，然后对所有文本进行精准机器学习的建模分析，然后在规定的时间中检查其舆情反响，来进行征信工作。在我看来，很多人工智能读到的领域都可以讨论，但深度学习和自然语言处理是最重要的。

精彩问答：

关于中国征信今后的发展趋势，您提到“好的情况是可能有十几家征信公司，这十几家征信公司术业有专攻”，您能再讲一下十几家征信公司并存是什么情形吗？

我刚才的想说的是这十几家并存的征信公司会分成两类，一类是有因为有积累了独有的数据源而形成独有场景的征信公司，比如像阿里巴巴这样的基于电商数据的电商征信，或者顺丰以快递为基础的快递征信，等等。还有一个是跨领域或者跨界的，以第三方征信平台为特色的征信公司。

而跨界征信平台出现的原因是因为积累了独有的数据源的企业，虽然他们本身足够强大，但也因此引起其他公司的警惕，以至于他们想和其他公司交换数据或者获取其他公司的数据变得不可能，所以只有第三方征信公司才能缓解这样的问题。

说到机器出错的问题，举一个特定的例子，比如我们这种媒体从业者，因为职业需要天天浏览P2P、套现等等的网站，机器会不会把我判断为信用状况很差、偿还能力很低的人？会怎么修正？

这是有意思的问题。我想以“什么数据最重要、最容易建模”的说法来回答这个问题。

很多人认为，外围的行为数据能够比较准确地说明一个人的还贷能力，而事实上并不是这样子的。从机器学习建模的角度来说，所有的数据或者说独立变量可以分为三个部分：第一部分是核心金融数据，如经济能力、经济行为是怎样的，有没有还钱等；第二是泛金融数据，比如住在什么小区，购物消费记录是怎样；第三个才是社交数据，比如网上浏览的鼠标轨迹如何。

但是，这三类数据的重要性是完全不一样的，核心金融数据的重要性远远强于后面二者，而第三类所谓的网上行为或者社交数据用来反欺诈或许有用，但用来判断还贷能力是及其不靠谱的，所以说提问这个例子，会是众多变量中放到模型去考虑的一个，但绝对不可能因为这样的情况而把偿还能力拉低，或者判断为你的信用状况很差。

对个人建立数据肖像，是不是意味着对一个团队也可以建立数据肖像？这两者的差异大吗？

答案是肯定的。而个人征信和企业征信的差异，是在于当各个不同的团体产生后，数据的离散性，包括数据的可持续性都会是很有意思的问题，这些在建模过程中都会是不一样的。

举个例子，比如我们对一个餐馆进行征信，那么这个餐馆的成员就可以看成是一个小团队，里面有老板、老板娘，还有厨师、采购和服务员，但这个团队中个体的差异很大，以及个体角色的重要性不同，就决定了我们建模过程中，方法就会遇到很多挑战。比如自己的老板小三上位，老板娘从一个四川妹子变成一个湖南妹子，那么这个餐厅的风味就有可能从一个川菜馆变成湘菜馆。从这个角度讲，他们的经营数据就全部都改变了。

当我们回头看，虽然是同一个老板同一个餐厅，但实际上其经营模式、客户群体、菜单价等都改变了，在这样的情况下，如果用对个人建立数据肖像的方法来对团体进行数据建模的话，就会有极大的差异。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

6人收藏

专题

雷峰网公开课

本专题其他文章

林藠头

编辑

你先说有什么事，我好决定在不在。

发私信

当月热门文章