您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
金融科技 正文
发私信给温晓桦
发送

1

社交网络数据征信的作用你猜有多大?

本文作者: 温晓桦 2016-09-08 17:28
导语:“海量的大数据中和个人信用表现即所谓的Y变量能关联起来的实际数据是很薄弱的。”

社交网络数据征信的作用你猜有多大?

巨大的信贷市场需求与稀疏分离的数据造成了金融机构征信与风控上的困局。随着互联网与数字技术的发展,有条件的企业开始了五花八门的征信服务,而民间企业推举最多的就是社交网络大数据征信评价。社交征信应运而生自有其作用,但这个作用有多大呢?似乎也没有达到大家所给予厚望的程度。

其作用大概只占5%-10%

业内人士分析称,目前来说,社交网络数据作为弱变量数据,其在大数据征信中的作用有限。国内运用人工智能与大数据做征信的初创企业星桥数据董事长丁卓博士表示:“其实,社交数据征信在做360度的用户画像刻画中,其作用大概只占5%-10%。对于金融行业的评估来说,这些数据不能作为直接的评价参考。”

同时算话征信CEO蒋庆军告诉雷锋网,海量的大数据中和个人信用表现即所谓的Y变量能关联起来的实际数据是很薄弱的,这种关联数据不容易获得,建模的数据也是不够的,当然更不容易开发出成熟的评估模型。

再者,社交网络上的数据真实性有多高?我们作为社交网络的主力军用户,深深知道朋友圈、微博、空间的状态与评论互动大部分实质可归结为感性的“秀炫晒”,那么机器根据预先设置的特征参考提取出信贷机构希望获取的数据之后,由此而形成结果就是对象的真实用户画像了?

去年8月,国外社交巨头Facebook推出了涉足社交大数据征信的专利——当一个用户申请贷款的时候,贷款方会审查该用户社交网络好友的信用等级。只有这些好友的平均信用等级达到了最低的信用分要求,贷款方才会继续处理贷款申请。否则的话,该申请即被拒绝。而在此之前,阿里巴巴旗下蚂蚁金服推出的芝麻信用分也在使用人脉关系、消费行为作为评估信用水平的依据。

国内,腾讯征信总经理郑浩剑日前也阐述了腾讯对于互联网征信建设的探索,该公司主要依靠大数据与人工智能技术,基于旗下微信、QQ等近十亿用户的社交数据来进行征信工作,通过把结构化数据,文本分类,LBS数据,社交网络传播扩散等挖掘之后形成用户画像刻画。

然而国际上似乎还有社交征信成功的案例。上述的例子中,Facebook的做法因其片面性被《大西洋月刊》评论称“涉嫌贷款歧视”:有批评人士认为,这项专利重现了历史上著名的“贷款歧视”做法:“Facebook 想要以你的好友名单为理由拒绝贷款”。这在芝麻信用的人脉应用中也是一样的道理,但芝麻信用征集了消费行为数据作为补充,或者其实是后者为主导。

至于腾讯,腾讯合法获得的用户数据大多数都是QQ及微信用户的行为记录,但这些行为记录对于征信的利用价值却很低。那么,为了达到评价个人的目的,腾讯也许不得不利用用户的内容数据,而一旦涉及用户的交流内容记录,那就有可能像Facebook那样被认为触及到用户隐私保护的法律问题。

归其原因:社交数据是弱变量弱相关

“实际上,对于根据社交数据分析出的结果,我们只能将其作为整个信用报告的补充,因为消费者在社交网络上的关系只是松耦合,而不像是在企业机构中形成的紧耦合关系,”丁卓解释道,在企业中每个人的薪酬、流水等都是确信的,但在社交网络上,内容都是随性的。“所以,社交网络分析只能作为征信对象在基础数据、深度数据以外的余信数据补充。”

在数据类型中,数据可以被分为强变量数据,即信贷、信用卡、社保、工商等来源于传统金融机构和政府机构的信息;和商品生产、流通、消费等环节产生的中变量交易数据,以及社交、游戏等弱变量数据。

“在14000个数据源、70万个来自于不同维度的数据变量中,我们结合金融机构的业务逻辑,分析变量的相关性系数,统计出其中从强到弱递减的变量关系,而社交网络数据明显属于弱相关变量。”星桥数据的核心团队当中,有12名计算机科学与金融学领域的博士,27名硕士,其首席数据科学家、肯塔基大学计算机博士林振民与团队一起,对数据变量的系数进行了数年的研究。

最重要的是,NLP(自然语言处理)仍然是个世界级难题,Google、微软也没有很好的解决方案。所以,目前的机器学习对于社交数据的处理准确度并没有很高。如果有好的解决方案,意味着整个迁移学习、机器学习领域都会有一些质的进展,同样,目前利用机器学习、人工智能进行的大数据征信和风控也会随之获得进步。

大数据征信还需在强、中变量着手

丁卓博士坦言,如今360度刻画中,FICO模型的作用仍占到50%左右,而剩下约45%的部分,则有赖于征信对象的交易行为数据来完成。丁卓介绍,传统金融机构对客户的信用评级一般依靠FICO模型,但这套模型在信贷、信用卡、外汇、民间借贷等强变量金融交易数据的基础上才适用,“在下沉到年轻用户和小微企业等客户的过程中,FICO就有很多需要改善的地方。”

这也是星桥付出极大的代价去对接京东、阿里巴巴、百度等互联网平台数据,打破数据隔离和信息孤岛的原因。丁博士透露,在谈判的过程中,能够通过第三方中立机构间接实现与其他大公司的数据资源共享,是他们彼此合作的支撑。“大数据的意义在于,能够通过机器学习、语义分析等技术,把海量数据的相关性计算出来,连接起来进行动态分析。”

星桥的客户包括工商银行、招商银行,据丁卓透露:“目前来说,银行的信贷客户以大型企业为主,但事实上他们也有获取新客户方面的担忧。因为从长远可持续发展来看,他们也要获取更多小微型企业(供应链金融)以及年轻用户群体(消费金融)等的客户。通过合作我们了解到,很多银行也想开展普惠金融业务。但由于对这部分客户掌握的信息较少,他们不知道怎么做。他们不了解普惠金融的客户群的特征,也不知道应该如何判断这部分客户的信用评级,因而不敢贸然开展。”

所以,在科技推动金融的发展背景下,适用于大型企业的FICO也需要有一个标准再适应市场的过程。“面向年轻用户和小微企业等建立更符合他们特征的模型,这是未来五年内,银行与征信机构必须要做的事情。”

社交网络数据征信的作用你猜有多大?

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说