0
本文作者:雷锋网网络安全专栏作者李勤
角色扮演?
NONONO,不是你们想的这种……
请纯洁一点
----讲正事分割线----
不久前,国内反欺诈服务商 Maxent 猛犸反欺诈(以下简称猛犸)对外宣布,已于 2017 年 3 月 完成由 DCM 领投的 5000 万人民币 A+轮融资,A 轮投资方祥峰投资此轮继续跟投。本次融资后,Maxent 猛犸反欺诈将继续重点在线上金融业务反欺诈领域发展。
然而,让我印象深刻的不是融资多少,投资人如何在演讲台上为猛犸背书。而是几个小时的融资发布会结束后,猛犸CEO张克邀请的一个外地合作伙伴 A 在参与完整场活动后,很给面子的继续等待正在和其他嘉宾聊天的张克,在 A 身旁的是 A 的另一合作厂商 B,B 的业务与猛犸有若干竞争关系。
让人出乎意料的是,在我询问他的参会目的时,B 很实诚的告诉我,他很佩服猛犸的 ID 系统,能在那么多弱相关的标签下,从各种看上去无法辨别的身份关系中,准确识别与发现哪些人有金融欺诈风险。
能让友商也这么感兴趣,这家公司一定有过人之处。
很想知道这个秘密
所以,最近我与张克约了一次采访,追踪了这个让猛犸友商也感兴趣的点——猛犸如何揪出一个不想还钱的骗子。
本文作者:雷锋网网络安全专栏作者李勤
----这次真的要讲正事了----
这个故事要从一则新闻讲起。
几个月前,深圳警方一窝端了一伙诈骗团伙,其中有个女骗子拥有超高的“角色扮演”技能,与三个大龄未婚多金女青年在线上谈起了恋爱,目的显而易见。
当然,这个女青年业务能开展成这样,我也是服气的。
我就没有这样的撩妹技能
银行和各种线上借贷平台遇到的骗子和这个女骗子有类似的技能:
他可能会伪装成一个收入稳定的医生,最近因为购房装修手头紧张,然后在 A 网贷平台贷款;
他也可能变身为一个建筑工地的工人,最近老板资金周转紧张,工资暂时不能到帐,儿女需要学费,然后从 B 平台贷取一笔资金;
他还有可能一次性“变性”为一个妙龄大学生,需要消费贷款购买最新的包包和化妆品。
他也许是一个非职业的多头借贷人,月收入5000元,但是手头紧张,所以从多个平台各贷了5000元,然后“情非得已”地不想还款,也无法按时还款。
穷
他也可能是一个职业的借贷中介。比如,某地某市场里,常年混迹一群无工作的人,身上的钱只够勉强吃饭,每晚靠网吧的8块钱一晚包夜度过,等待第二天工头发来各种活计。突然有一天,这个借贷中介过来,只要求你有身份证,宣告一个天大的“好消息”:把身份证拿过来,他帮你贷款,贷款到5000元,他分1000元,剩下的4000元给你。
事实上,这群人暂无还款能力,于是,这种一笔笔的贷款就成了坏账,日积月累,或突然爆发,压垮了一家家线上贷款平台,或损坏了一家大银行的商誉。
这些悲催的例子其实都是在说一件事情——
为了扩大生意,银行们和线下借贷平台都瞄上了做线上借贷平台(以下简称平台)。从实际操作流程看,有过线上借贷经验的人应该知道,线上借贷流程比拿着各项资料去银行与客户经理面谈要简化很多。也因此,客户经理再也不是手持一份客户的个人征信报告,再进行一轮复杂的社会关系调查,各种流水和资产审核,花上一些时间面谈来判断这个人到底能不能还款。
他们可能只需要一张身份证照片,一些简单的个人信息,就可以获得一个贷款“客户”。但是,这个“客户”是否真的会还款?是否要把这笔款贷给这个“客户”?平台想要知道这些问题的答案,这就是猛犸要解决的问题之一。
平台当然也不傻,线上生意做久了,总会有大量的数据产生。
你可能理所当然的想:大量的数据会产生用户画像,从而不就确定了一个人的还款能力?
话都让你这么说了我特么还说啥
事实上,平台比谁都想提高风控能力,但现实很骨感。大量的数据产生后,平台面临了这些问题:
1.业务量大,产生的数据量很大,处理起来很麻烦,怎么知道哪些有用,哪些没用?
2.获得的数据中,非结构化数据混在其中,一般人无法处理,需要大量数据专家。
3.碰上专业的欺诈团伙,你怎么办?比如,门店提供贷款买手机业务,销售员却贴了大大的标语:助贷。销售员和顾客合伙骗贷怎么办?
要回答这些问题,首先要知道“谁是谁”。
比如,在线上贷款中,一类现象十分严重:盗用用户信息进行贷款。
“在一项交易进行时,会产生一堆的联系点,比如,我用我的手机发起转帐交易时,转了多少钱?转给谁?在哪个 IP 地址发起的交易?都是联系点。在不同的地方、不同的IP地址,我都可能发起不同的交易。所以,我认为数字化业务的核心是做数据平台时,以人、设备和账户为核心,建立整体的数据平台,在这个基础之上,再去做分析、大数据、机器学习。”张克说。
猛犸本身不产生数据,也没有削尖脑袋想钻进数据江湖。
按照张克的说法,创业公司冲进这个领域要面对艰难的竞争,还不如做好手头的技术,因此,他们与诸葛io、talkingdata 等公司合作,引进第三方数据,同时把自己的技术下沉到每一个客户的应用中,梳理基于他们的应用收集的数据。
专心打造一项技术,让自己足够强,强到与客户的应用相匹配时,可以像一股细细涓流,丝毫不产生震荡的影响,这就是猛犸的策略之一。
在费心竭力地搜集终端、用户、账户、业务和第三方数据后,还有关键的一步是让数据“说同一种语言”。因此要对数据进行整理,实现语义的统一,再在感知能力这一块,对设备、渠道、用户、产品和交易之间的关联进行特征抽取与建模。
“在机器学习里,如果机器学习是一个金字塔,塔尖是模型和结论,效果却是由塔的基座(数据)来决定。数据基础决定效果,上面的模型都是尽量接近塔尖——所能够预设的天花板而已。”张克冷静而克制,他并不迷恋一座宏伟的金字塔塔尖的登顶,而是清晰地看到什么是基础,到底每一层能发挥什么作用,而自己又能看到怎样的风景。
那么,到底是什么在支撑猛犸进行智能风控?张克介绍:
第一,IT系统。现在业务迁移到互联网,最基础的是要知道做业务的现场是什么?如果犯罪了,要知道犯罪现场,交易则要知道设备现场。
张克称,猛犸的设备指纹技术与其他厂家相比,并非做做主动式指纹,而是做被动式指纹。
被动式指纹的优点在于能打通微信,比如,用微信、内嵌浏览器访问一个服务,其他厂家无法识别是否来自于同一个设备,但是被动式指纹都能够打通。一旦打通,就可以更好地建立顶层数据集。
第二,异常检测。猛犸把它分成四类,做了四种不同的计算框架,只要客户提出来,最少一天,最多一周,就能根据业务需要、业务场景把新的计算工程放进去,然后检查用户行为异常。
在异常检测上,猛犸做了统一量纲。如果一个人一天登录了十次,数值有异常,这是一个特征。还有一种场景是:同样一个人,两次交易之间相隔了一小时,但地理位置相隔了一千公里,这个也是异常特征。
但是以上层模型用的这两个异常特征其实风马牛不相及,根本不是在一个框架里面讨论问题。异常统一量纲后,根据概率分布,猛犸分析出来的结果是,所有的分布都在1和1000之间,用起来非常简单,这种模型对使用便利性而言,是巨大的提升。
还有一个好处是冷启动,你做模型时经常碰到一个问题:如果不给我数据,怎样才能试出一个可用的模型?
还有一点,在反欺诈里,数据本身就有很大的问题:标注数据非常稀少,数据本身是非饱和数据,一个数据的数据集可能有几千个不同的维度,这几千个维度在所有的数据里不一定都有。
在这种情况下,用监督式的方法很难做,做出来的模型效果也很差,所以猛犸就采用非监督的方法,第一,能冷启动,第二,在标注数据比较少时,可以较快地主动发现一些欺诈。用这种异常做聚类,也会更加准确。
第三,行为生物识别。生物识别现在也是一个很火的领域。很多供应商在做指纹、声纹、人脸识别,而且做得都不错。但是,还有一个问题:它是 N 次检测,每次检测时,用户会知道你调用了指纹检测,或调用了人脸识别的检测,因此,存在两个问题:
1.影响用户体验。
2.黑客会知道你在用什么手段在找他。
所以,女朋友趁着男朋友睡觉时,拍一张照片,或者拿手机在他脸上照一照就能够贷款,有很多这种类似的破解手段。
现在还有一种方法——用行为做生物检测,而非物理、生理的方式做生物检测。
比如,你手里拿着一个 iPhone6,如果是右撇子,滑动的位置,更大的概率是靠近左边。如果是左撇子,滑动的位置大概是靠近右边。靠左还是靠右,以及上下的位置,在一定程度上会反映出手掌的大小。在输入时,可以检测出手指的力度、大小。
这些都是一些弱因素,并不能通过一个因素直接判断这个人是谁。但是,当一系列弱因素结合在一起时,很容易判断出来,在这个时间用特定的一台手机的人与过一段时间后再用特定的同一台的手机的人是不是同一个人。
这种判断的好处是:这是一种基于行为的生物识别,识别背后操作手机的人会不会有变化。对黑客而言,他不知道你在用什么手段,就算他知道了,把我的手机偷走了,但也很难在用户的手机上模拟用户真正的使用行为。
对用户而言,对用户体验的影响很小,因为用户根本无法意识到。现在已经有很多国外的创业公司在做这种技术,丹麦最大的一家银行在几年前就已经部署这种技术。
----正事讲完----
愿天下无骗子
+
借钱要还
本文作者:雷锋网网络安全专栏作者李勤
雷峰网原创文章,未经授权禁止转载。详情见转载须知。