0
本文作者: 温晓桦 | 2016-12-21 23:05 |
雷锋网消息,在周日于深圳举行腾讯大数据技术峰会暨KDD China技术峰会上,百度金融服务事业群组研发负责人、KDD China副主席沈抖博士介绍了百度金融各场景背后的人工智能技术和方案,包括安全防护、智能获客、大数据风控、量化投资等。
以下是沈抖博士演讲实录,雷锋网做了不改变原意的编辑:
除了通过攻击机器,黑客还会在你跟服务之间的通信链路上去突破,所以我们就必须做好加密,这也是为什么现在所有的银行板块基本都会使用HTTPS加密。原来百度搜索不是这样做的,因此会导致用户搜索过某些东西后,就会接到推销电话的情况,其实这是因为在中间的链路就被劫走了。如果这招还搞不定,设备是安全的,链路也是安全的,那么黑客能想到的就只能把你的用户名和密码偷走了。所以会出现很多地方的账号泄露,也导致很多拖库和撞库事件的发生。
往下想还有更可怕的是身份盗用。所以这时候就有必要去做谓生物佐证和活体识别。现在,活体识别是整个金融行业做身份识别中非常重要的一块。照片容易复制,所以单单提供一张脸也未必就可信,所以必须让用户做活体,比如眨眼、扭头、张嘴等。
所以上述就是安全防护中会出现的攻击步骤,并且一步步都变得愈加严重。那百度现在每天有这么多的数据,可以做什么呢?
登录授权,身份刻画
比如所谓每天300亿次授权,就是如果你处于登录状态,每对百度进行一次访问,这个PV都会到达后台,可以做什么呢?就是比如虽然登录的时候是你,然后传输过程中也是你,但是有可能黑客在不知道什么地方就把你的身份信息截获了,并从另一个地方登录访问。所以从系统上来讲,我们要实时地判断这个身份是否已经被替换了。
所以,每日300亿次授权,200亿次定位,60亿次点击,3亿次登录请求都可以用作身份刻画。实际上在判断一个账号是否安全的时候大概就看这几方面:
时间冲突
首先时间上,如果突然有一段时间在印度,突然有大量的百度账号,而且晚上两点三点发生很大账号行为,但这行为却是根本没干什么。很多黑客一下撞库拿到很多账号之后,他怎么办?他就真的是批量地去尝试——这些账号能不能登陆?假如都登录完了之后,发现你有钱包账号,他什么都不干,直接跳去看你有多少余额。一般正常人不会做这样的事(意味着是安全风险的信号)。
所以实际上所有这些数据合在一起,基本上就能判断这个人到底是什么情况了,也因为如此我们就会加重组织的风控指标,来判断每一次登录是否正常。
证明“你是你”
说完流程,下面讲一下怎么去判断一个人真的是一个人——证明“你是你”。
证明你是你的时候有很多方法,包括前文的人脸识别、活体识别等,但在现在移动设备流行的前提下,有一个手段是非常便捷的——手写签名。
在移动设备上,因为它可以记录每个人签名过程中的力度、速度、书写风格等,所以在采集到信息后,算法上把整个字分成各种小段,进行特征分类等方法来进行签名比对。这种方法的好处在于,每个人的书法习惯是很难去模仿的,因为一旦有了模仿的前提,速度和节奏极可能发生变化。
其实智能获客和大数据风控都离不开对人的画像刻画。无论要做获客,找到这个人;还是要做风控,判断这个人是好人或坏人,都要对每个人有非常深刻的了解。
我们举几个例子,看怎么去了解一个人:
首先看看有没有贷款的意愿,可以从人生阶段、消费习惯等能够判断趋势;
接下来就看其有没有还款的意愿,是不是很想贷,但贷了不想还;
那如果即使想还,还要看其有没有还款能力,有可能还不起,比如尤其是过度消费导致多头借贷的情况;
最后就是没有还款意愿的欺诈行为。
任何行业都存在获客的问题——低成本地获得想要的客户对业务经营的作用不言而喻,金融行业同理。金融领域要想做好获客,大概是这几个方面:
第一,得知道其有这个需求;
第二,得有通道去抓获。
无论是从搜索、LBS,还是到浏览,都表达了客户的需求。如宏江老师所说,一些新闻推荐你也许觉得不相关,但其实也表达了你的潜在诉求,你的行为就是你自己。通过这些行为,我们就能看出来这个人到底想干嘛,然后通过标准分类把他们找出来。
再举个例子,即使知道了这个人想干嘛,还得必须得有一个方法以特别快速地去处理,因为客户的需求变化很快。如果一个人,如果一个人,发现他有借贷需求时,在第一天向其推送消息时,其响应率比较高,如果到了第二天再推送,响应率则衰减一半。
之所以出现这种情况,一方面可能是因为人的兴趣确实在变,昨天有消费冲动,但是过了一天就冷静下来了。第二种情况是因为现在互联网金融或者叫科技金融实在是竞争太激烈了,今天没有回答他,就有人接替来出单了。所以从这些角度来讲,我们不但要安全地触达,还要及时。
获客的话,我们要在智能的区域出价,以合理的价格触达每一个用户,不可能不计成本地去做。因此,这里面就是涉及怎么动态地调整定价策略、出价策略,就是根据客户的贷款意愿强弱、还款能力强弱,是否存在欺诈可能等。所以这些因素考虑完了之后,根据这样的ROI来出价把客户给拿下来。
这个推算也不难,基本上是:把顾客的收益乘以转化再乘以目标ROI,然后再加上一个条件因子,因此可以得出来一个竞价。然后竞价会随着ROI变化来调整,连二阶导数都用不上。所以,这就做到了在ROI不变的情况下,能挑到越来越好的用户。
除了要控制好成本,及时给出消息,我们还得给出一个好消息。所以我们这里面就分成几点:
首先这个取决于客户的兴趣爱好、人生阶段,客户的生命周期、生活体制、消费水平等所有因素放在一起解决的。在今天,我们还看到比如微信支付在机场等一些地方张贴广告,拉客户,其实这种成本是非常高的。公式计算的是:比如需要多少补贴,一个用户才会使用我们的产品来支付;第二个是转化率不能特别低,成本省下来了,用户没有获取到,这也是不行的。这些都可以提高获客的效率和效益。
那么这个这里面最关键的一个是转化率的问题,就是现有模型的问题。在这样一个补贴的情况下,在这个场景下,到底要不要转化?所以大家特别想获得一个补贴的话,可以在选择时犹豫犹豫。(说不定系统会以此提高补贴额度,哈哈!)
下面是大数据风控。这里列了很多模型,真正在做金融的时候,整个用户的生命周期里面,每一个阶段都会有很多模型来支持。这也是为什么这个金融行业需要大量机器学习、数据挖掘、人工智能等专业人才。
比如,申请的时候就有风险模型欺诈策略;
然后到额度这种流动模型贷款利率的时候就需要定价模型,虽然现在国内我们去房贷时利率差不多,但实际上每个人风险不一样,利息率就应该不一样;而欺诈贷后管理的过程中,则需要行为风险模型。
行为风险模型的使用,比如说现在的教育贷款,用来帮助资金比较短缺的学生投资自己的,上个补习班之类,但如果放贷后发现,这个学生基本不上补习班,还经常在BBS上讨论游戏攻略,那应该赶紧把钱要回来了。所以风险模型都会去判断放出去的贷款的风险的大小。
但如果是好的客户,我们需要持续地做,但其有可能是抓不住的,这就要看其流失的风险。
最后是逾期催收和失联修复的所用到的模型。
所以有很多这种模型,这里面是简单的说明。以前的风控模型和现在的机器学习没有很大的区别,但过去的做法不对。一来缺乏是大量数据实时输入,二是用户端和企业端是否做到各方同时考虑呢?比如教育贷款这个场景,也许学生是好学生,但是机构不是好机构,这样的风险更高。
此外投资资产质量的问题,也是有很多数据可以在前期把风险识别出来。比如高速公路想要用抵押的方式贷新款,银行需要调查高速公路的车流量时,过去真的要派一个人到实地去考察,现在OBS、GPS这么发达,它们收集的数据足以帮助设计完成这个任务。
最后讲一下量化投资。量化投资的正常流程是:
投资标的调研
筛选出合适的标的,然后建立投资组合
组合风险控制,动态调仓
这里面用的是搜索量和股价之间的拟合程度的原理。因为百度上每天跟股票名称和代号相关的搜索大概有2000多万次,而且我们分析一下发现,搜索量和股票价格的关系度比较高,其正相关相关系数在0.7以上,本身这个搜索量其实就反映了一个用户对股票的兴趣程度,这时我们再加上隐形的因子判断,再慢慢地我们自己的理解就能反映出来,潜在的买家在哪里。所以这些东西放在一起,就可以对股票的价格有非常好的建议。
而除了股票价格以外,还有很多其他行业研究可以做。比如汽车行业的销量调研,我们也可以从OBS数据里拟合汽车的销售量,有了这些行业数据以后就可以比别人更早地获悉机遇,更早地在这些领域掉头,或者增资。
从一些更细的因子来看,我们希望机器学习了各种指标后,找到那些相关的,最好是强相关的因素,包括搜索舆情,能够在这个几个指标上都能够形成比较稳定的相关性。
虽然这讲的是百度金融,但其实不止是百度金融,这也反映出来从互联网金融,到科技金融、金融科技,整个演变过程,其行业前景都是要用好大数据、人工智能这些技术。
后记:
雷锋网此前报道,今年百度世界大会金融分论坛上,百度立下以人工智能为中心的金融科技flag,从以上的介绍来看,大家如何看待百度金融的实力以及潜力呢?
雷峰网原创文章,未经授权禁止转载。详情见转载须知。