谷歌发布Graph Learning平台，这在金融反欺诈识别中有什么作用？

本文作者：张驰

2016-10-20 11:10

导语：Google Research的Expander团队发布了大规模、基于图的机器学习平台不仅被广泛应用于图像，在金融反欺诈环节中它也被证明极为有效可靠。

编者按：本文转载自氪信公众号（ID：CreditX_CN），雷锋网已获授权。

关于Expander工作原理部分节选自Google Research，作者为Sujith Ravi。

近来，Google Research的Expander团队发布了大规模、基于图的机器学习平台，而这项技术正是我们日常生活中使用的收件箱提醒、Allo智能信息回复、Google Photos图像识别等功能背后的强大支撑之一。

谷歌发布Graph Learning平台，这在金融反欺诈识别中有什么作用？

事实上，基于图的机器学习技术不仅被广泛应用于图像、自然语言处理、知识图谱、网络安全等领域，在金融反欺诈环节中它也被证明极为有效可靠。尤其在当前普惠金融的市场环境下，线上欺诈风险变化非常频繁，以往单一的个体欺诈已迅速演变成有组织、有规模的团体欺诈和相应的关联风险。而传统的反欺诈手段包括身份验证、客户信息逻辑校验、外部信息的对比校验、黑名单过滤等方式主要还是在识别个人风险，无法根据千丝万缕的关系挖掘潜在的群体欺诈，这就需要基于网络的全局风险识别能力来覆盖风险漏洞。除了利用复杂网络来识别群体欺诈风险外，基于图的半监督算法也可应用于预测“好”、“坏”人的分类模型，即在有少量标签节点的图结构中，根据传播算法，预测无标记节点的标签类别。

那么基于图的半监督算法到底是什么呢？它具体是如何工作的？又与我们金融反欺诈识别有什么联系和作用？下面小氪就为大家科普一下：

Graph Learning是什么？

目前机器学习、深度学习领域的许多成就都应归功于具有极高预测能力的“监督学习”模型，这是一种需要在大规模有标签的样本上进行训练（也就是监督）的模型。然而，任务越困难，高质量的标签数据也就越不充分，收集标签数据所花费的精力和时间往往让人望而却步。

Expander团队受人类如何在已有知识（有标签数据）和全新未知结果（无标签数据）之间搭建学习桥梁的启发，使用被称为“半监督”学习的方法，能使系统在稀疏数据集上训练。而基于图的半监督学习方法则不仅能够同时吸收有标签和无标签数据，还能很简单的将它们融合成单一的图，系统可以一次性学习。这与神经网络先在有标签数据上训练，再应用于无标签数据是截然不同的，具体可以结合下面工作的原理进行理解。

在Expander中如何来构建一个图呢？

基于图的半监督算法最核心的就是构建图本身。那么如何构建一个图呢？需要定义节点、边、以及边的权重（边的权重即为节点的相似度）。比如在自然语言处理中，以情感分析为例，每个节点代表一段文本信息，而那些边就是文本情感的相似度。

具体技术就是，首先利用深度学习在大规模语料库上使用无监督算法学习单词及词汇的情感向量表征模型，计算每个节点的向量表征；然后，计算节点与节点之间向量的相似度（譬如，向量的余弦距离），如果向量相似度超过一定值，那么认为这两个节点所代表的文本情感相近，就在这两个节点之间加上一条边，边的权重即为两个节点情感向量的相似度。在构建的图中，部分结点是有情感标签的，称之为“种子”结点。那么如何通过“传播算法”把“种子”结点的标签传播给无标签的结点呢？

它具体是如何工作的？

谷歌发布Graph Learning平台，这在金融反欺诈识别中有什么作用？

在其核心，Expander平台首先结合半监督学习和大规模基于图的学习构建了一个多图数据表征。举例如图中所示，有两种类型的节点：灰色代表无标签数据，彩色代表有标签数据。节点之间的关系通过边表示，而连接的强弱则由边的粗细表示。现在我们明确半监督学习的目标：预测图中每一个节点的颜色。

谷歌发布Graph Learning平台，这在金融反欺诈识别中有什么作用？

其次Expander图学习框架把这一任务当成优化问题来解决。在最简单的层面，它先学习图中每一个节点的颜色标签，再根据连接的强弱分配给相邻节点相似的颜色。一个幼稚的方式是尝试一次性学完所有节点的颜色标签分配，但这不能扩展到大型的图上。因此，更好的解决方式是：把有标签节点的颜色传播给相邻节点，再重复这个过程。如图中所示，在每一步，通过观察相邻节点的颜色分配，一个无标签节点可以被分配一个标签。通过这种方式我们可以升级每一个节点的标签，重复操作，直到整个图都是彩色的，而这一过程在优化相似的难题上被证明也是极其有效的。

如何把基于图的半监督学习应用在金融场景中呢？

谷歌发布Graph Learning平台，这在金融反欺诈识别中有什么作用？

氪信网络反欺诈服务界面示例

类比上文中的Graph Learning，在金融场景中，其实每一个申请人、手机号、设备、IP地址都是图中的结点，而诸如申请人拥有设备、手机号呼叫手机号等有向联系就是图中的边，边的权重为关联的紧密程度。在我们构建的图中，那些有违约与否标记的申请人是原始种子结点，通过使用基于图的半监督算法，把是否违约的标记传播给无标签的申请人，这样我们就可以在少量有标签的样本上构建出极为庞大的风险网络，最终打造形成我们有效可靠的违约预测模型。

氪信已经和多家大型金融机构合作深入探索基于图的半监督算法在金融风控领域的成熟应用，如上图所示，第一张为简化的风险关系网络，浅绿、黄色、红色节点分别代表1（低分险）、2（中风险）、3（高风险）；第二张为全局的风险关系网络，扩展的灰色节点代表0（无风险）。对于每一个申请人、手机号等，都可以基于图数据库的网络反欺诈服务，给出相应的群体风险欺诈等级及详细的风险描述。

目前氪信正通过先进的ID Mapping和模糊匹配等技术，帮助金融客户构建个人或企业复杂关系网络，XCloud风险云也推出基于SNA社交网络分析的团体欺诈和关联风险强甄别服务，为客户完成从个体风险到网络全局风险的识别能力升级。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

张驰

专业写瞎

不受意识控制地报道那些让人感动的产品技术和事件......zhchsimons@gmail.com ；微信：nksimons；《脑洞》公众号：hackmind

发私信

当月热门文章