0
金融人手握大量数据、规则和算法,却没有读懂真正的风险管理:
数据量越多、维度越全,就是更好的数据吗?就能实现最好的风控效果吗?
风险管理是一门寻求平衡点的科学,那么我们应该在什么问题上寻求平衡?只是风控尺度和业务增长之间的问题吗?
一个卓越的风控模型,除了考虑算法、考虑数据,它到底还有多少细节是你错失的?
……
王劲曾是百度金融的CRO,也在有着“风控黄埔军校”之称的美国运通工作了十七年。
次贷危机之后,美联储加强了对所有银行机构的风险模型管理,而他在美国运通的最后五年,创建了运通的模型监管和验证中心,对全公司上千个模型进行全面的管理——亲身经历过次贷危机的他,对风险管理有着独到的洞察。
近日,雷锋网《银行业AI生态云峰会》就邀请到融慧金科CEO王劲,作为「数字化风控」赛道的科技专家,为大家带来他在银行智能信贷风控的管理理念和应用实践。
以下为王劲的演讲内容,雷锋网AI金融评论作了不改变原意的编辑:
大家好,非常高兴今天有机会跟大家在线上分享我在管理风险的二十多年中,所沉淀的一些知识和经验,希望对大家有所帮助。
近年来,随着中国互联网金融飞速发展,同时面临着很多的难题和挑战。
首先,如何定义风险的使命,风险管理人员的定位一定要准确。
对于风险的使命,我实际上是借用美国运通当时的CRO在二十多年前的一个定义——推动有利润的业务增长,同时提供卓越的客户体验,避免意外风险——整个描述并没有表示要降低风险或者把风险降到零。
有利润,意味着风险一定要在可控的范围之内。
增长,风险不是限制业务的发展,而是要帮助业务做有利润的增长。
卓越的客户体验。很多时候我们不是太关注,但是风险管理的每一个决策、每一个动作实际上是会影响到客户体验的。
避免意外风险。因为金融本身就是在运营风险,没有风险是不可能的,我们并不惧怕可预知的风险。
比如我们判断一个客户的坏账率是2%~3%,这个并不是风险——但如果最后的实际结果是5%~10%,这个情况就是意外风险。
所以,我们做风险管理,一定要每时每刻预判未来可能发生的事情并及早应对。例如压力测试就是一个为了避免意外风险的风险管理动作。
风险管理最重要的就是对数据的把控,思考数据的生命周期。首先要从对业务产品和客户的选择当中,决定需要什么样的数据。
基于业务方向,我们要对内外部的数据进行各种盘点,比如从客户那里收集什么样的数据?在人行要拿什么样的征信数据?需要用什么样的第三方数据进行补充?为了服务客户和达到业务目标,必须要有足够好的数据帮助我们进行风险管理。
此外,立下数据选择的原则和条件。因为在众多的数据中,有合规的和不合规的,并且存在着强弱之分,如果没有制定相应的原则和条件,在未来就会有很大的麻烦。
数据的分析和引入。我们要分析、评判市场上的各种数据源,再做引入,之后要对数据进行实时监控,以保证其质量和持续的效果,这就是数据战略的一个闭环。
接下来跟大家分享一下,选择数据的条件。
数据必须合规,必须要满足国家和政府的要求且一定要有授权。
数据的全国人口覆盖率要高,这是一个非常重要的要求。如果数据的覆盖率不高,就会影响模型的识别度、稳定度等。
数据的新鲜度和时效性要高。要达到日更新至少是t+3,即今天的决策一定要达到3天之内的时效性。如果现在的决策数据是5天前的,那么现在这个模型决策的质量就会相应地打折扣。
数据的历史长,可以回溯至12个月以上。因为很多的衍生变量会回溯历史,如果没有可回溯的历史,那么也不会形成这些非常重要的变量。
同时,可回溯也让我们能够验证一些历史数据的效果,这个条件是非常重要的。
数据的稳定性好,我们会跨时间窗观察数据的波动。如果数据波动性太大,那稳定性肯定是不好的。
数据战略是一个相对长期的落地过程,在这个过程中,数据要达到怎样的标准和维度?
覆盖低到覆盖高。
信息薄到信息厚。有些客户可能有20个变量可以描述,那么可不可以将其演变成,平均有30~40个变量在描述客户?这就是二者之间的关系。
质量低到质量高,不能用到一些垃圾数据。
弱相关到强相关。比如在刚开始的20个变量当中,可能有80%的弱变量;如果剩下的20%的强相关演变成30%的强相关变量,模型的决策就会更好。
高成本到低成本。
源集中到源分散。大家通常把自己的一些策略和模型,特别地依赖于某一两个数据源,这实际上存在着非常大的操作风险。我们一定要在数据战略中将其来源尽量地分散开来,当然也不是无限制的分散,而是要找到其中的平衡点。
引入数据之后,它的价值转化分为哪些部分?
首先,是基础的数据层,数据源包含了客户提供的数据、征信数据、第三方数据等等。
数据层之上,是工序#1的加工层,将对各种数据源进行衍生,否则原始数据就不会得到很好的利用。
在衍生变量这一层,要着眼于这些变量的使用场景。有些衍生变量与欺诈相关,有的与信用相关,有些则是与精准获客相关。
工序#2是集成层,因为衍生变量可能是基于某个数据源而成,那么,模型和规则就会帮助我们把各个数据源的衍生变量进行再集成,使其成为一个子模型或者是一套规则。
工序#3是解决方案层,反欺诈的解决方案可能会有上百个规则,这上百个规则可能用到十个模型,相当于将各种各样的材料修建成一所房子,最后输出给持牌的金融机构。
从最底层的征信数据层到各种加工层,金融行业里的参与者承担着不同的角色。当每个银行和消金要进行自身转换时,他们也需要承担加工、集成和解决方案的角色。
很多人并不是特别理解,风险管理永远是一个寻找平衡点的科学。除了要用到人工智能、非常多的数据、算法之外,实际上,很大一部分风险管理是在寻求平衡。
平衡点之一:风控和业务增长之间的平衡。
比如在产品人群额度的选择上,我们可以操作高利率、低质人群、低额度。
虽然风险高,但是获客成本低,业务量也会加大,这些大量有贷款需求的人,他们的风险是比较高的。
与此同时,也可以操作低利率、优质人群、高额度,这部分人群可能风险比较低,但是获客成本高。
优质人群对信贷的需求相对较低,所以业务量也较少。大银行吸引的是大批的优质人群,其他的小银行和金融机构,可能在这方面的挑战就相对大一些。
所以,在运营当中,要在高利率和低利率,优质人群和和低质人群,高额度还是低额度之间寻找平衡点。
平衡点之二:在风险管理的数据、模型以及策略中,如何平衡简单和复杂。
这也是非常考验人——简单意味着准确度低,合规操作风险低,相应的成本也低。
而复杂,模型用到了非常多的变量,非常复杂的算法,那么准确度可能会相应提高,但是合规操作的风险也变高了,成本也会增加。
所以,如何在业务的初期、业务的增长期以及成熟期,找到其中的平衡点,是一个具有挑战性的课题。
平衡点之三:“科学”和“艺术”之间的平衡。
比如在风险管理当中,我们会用到大量的数据,用科学的方法对数据进行回归和分析,它的好处就是客观的,而不是主观的。
因为要基于数据过去的表现做策略和模型,其不利的地方就在于局限于数据的好坏,在一个混乱的P2P和payday loan的时代收集到的数据,我们要对其科学性进行质疑。
过去的数据并不能够代表未来。过去的利率可能做到50%、甚至100%,但是监管加强之后,利率就得下调,这是对科学的一些挑战。
“艺术”则依赖于实践的经验,宏观的发展方向,包括监管、竞争环境以及社会行为。人们为什么要借贷?为什么还不上贷款?这些都是基于经验所沉淀下来的一些东西。
其坏处在于局限于个人的经历,如果CRO或者总经理在风险管理方面的经验不够,在决策上就会遇到一些问题。
所以,风险管理既不能够完全的依靠数据科学,也不能够完全依靠主观经验,关键在于找到其中的平衡点。
在模型风险管理当中,现今的大数据以及互联网金融时代是离不开模型的,在互联网金融管理的原则方面,就是要充分的利用概率,而这个概率是通过模型实现的。
一个卓越的模型需要有哪些要求?
数据选择,一定要考虑数据的覆盖率、缺失率、新鲜度和稳定性。
衍生创新,一个模型的好坏与否,前两点是非常重要的,如果衍生变量做得不是特别好,那么数据本身跟所要预测的东西的相关性就会比较弱。所以在衍生的过程当中,要增强其稳定性。
架构选择,有了原料和衍生品之后,应该怎样架构模型?用不用子模型,要不要做人群分割?这些因素将会影响最后模型的中长期的表现,以及维护的成本。
算法选择,要用传统的逻辑回归,还是有一些简单的决策树,或者用机器学习神经网络,需要对这些技术加以选择。
监控迭代,每一个模型都有其对应的生命周期,所以我们一定要知道每一个模型什么时候失效,什么时候应该迭代,我们一定要打造一个能够实时跟踪的平台,在衰退后又能够快速的迭代。
y的定义和样本的筛选。
虽然拥有了优质的原材料、数据、衍生变量,但是如果y的定义出现问题,是要将逾期30天定义成坏样本,还是将60天的逾期定义为坏样本?是否在其中增加额度的一些条件,而不是坏账的金额条件。
样本的选择也是如此。历史上的样本可能是有波动的,如何选择能够带来对未来预测的样本,也是一个非常重要的因素。
评判的标准,除了辨别力之外,精准度要高、稳定性和复杂性要强以及可解释性。
所以模型的建设不仅仅只是算法,也并非是对数据的选择,而是一个非常复杂的提炼的过程。
第一个架构方式:比如有三个数据源,先将其集成到内部的数据库里,再利用这些几百至上千的数据,做出一个模型A。
第二个架构方式:基于每个数据源建立一个子模型,然后将这些子模型再集成为另外一个模型A。
这两种都有各自的优劣势。
第一种,识别率和精准度相对较高。因为它是基于相对底层的数据集成起来的,每一个子数据都有相应的权重,其精准度会相对高一些。
劣势是稳定性弱,操作风险高。如果把这三个数据源的数据混杂在一起,那么一个数据源出了问题,就会影响模型A的迭代速度和效果。
第二个的优势在于稳定性强,通过集成数据源一和数据源二,就会削弱一些波动,稳定性得到增强的同时,操作风险也比较低。
如果数据源三出了问题,将子模型一和二并列,虽然还是同一个模型,但是识别率和精准度会受到损伤。两个不同的模型架构,将影响到未来的表现结果。
很多信贷公司都会遇到的课题就是,在不同的流量入口的条件下,每一个渠道的人群和风险特征是不相同的。
那么,是将每一个渠道做一个模型?还是将流量渠道1和2合并形成模型A,之后通过再流量渠道3形成模型C?
什么情况下可以合并呢?当某一个渠道的样本很少,并且一和二的风险特征相近,同时某一个渠道的样本也不充足时,合并会产生更好的效果。
那么,该怎样有效使用模型?模型只是一个工具而已,定义模型就像一个温度计,高烧定义在什么位置?低烧定义在哪个温度点?在使用时一定要明确模型的优点和局限性,否则就会出问题。
优点是客观的,能够进行比较精准的排序,高效率地处理客户,同时依靠统计技术调整业务、变动阈值,以影响通过率和坏账结果。
局限性在于开发时间较长,过去的表现不能完全预测未来,所以一定要有“艺术”判断的部分;模型也是对现实的简化。
比如用户不能还款的原因,有可能是失业、生病或者离婚,面对这些复杂的因素,模型是无法判断每一个逾期的原因。
当模型用到了非常多的变量之后,透明度、稳定性、可解释性都会受到挑战。在强监管的金融环境里,都需要将这些因素考虑进去。
风险管理会受到宏观政策、国际环境、经济周期、监管和竞争环境等因素的影响,所以要增强动态管理的理念。
具体分为以下三个方面:
第一,实时了解客户,其中包括时效性很高的征信信息、客户信息、公开信息,以及第三方的信息,一定不能是非常陈旧的信息,那样无法做到动态的风险管理。
第二,寻找风险和回报的平衡点。风险管理就是要不断地寻找平衡点,风险管理和业务的博弈,简单和复杂的博弈,都需要不断地进行调整。
最好基于利润的角度,平衡风险和回报。例如投入和回报的比例,利率应该定在哪个点,才能得到恰当的回报。
风险管理一定不能只看到当今的风险,只参考当今的数据。
我们一定要从计量和定性的角度,判断在压力状况下评估的这部分优势人群和组合;如何判断他们在压力情况下的坏账情况,是否会让我们从赚钱到亏本,这些都是风险管理中非常重要的理念。
第三,经验判断,我们一定要利用经验来补充科学,其中包含市场、竞对、员工、监管学习新的思想和方法,例如在次贷危机当中,很多机构关张或受到重创,但也有很多机构变得非常成功。
例如当时的摩根,就是在次贷危机里相对成功的案例,但是美雷曼还有AIG保险公司都受到了重创,主要原因在于缺乏经验的判断和果断的决策。
需要利用经验来判断现今的时事,哪些需要相信模型,哪些要绕过模型做决策,都是动态风险管理的理由。
最近两三年,国家把金融环境梳理得非常干净、健康,有利于国家经济的正常发展。银行、消金公司等持牌金融机构都要面临合规治理。
怎样利用技术手段,在达到国家要求的同时,提升金融合规的自动化、专业性、时效性、包容性、协调性?需要做到以下四大方面:
第一,身份识别和控制,如何做好KYC(Know Your Customer),明确用户资产能力和还款能力。国家一直在强调要合理不能过度借贷给客户,这些都是KYC的一部分。
第二,数据安全管理,数据安全包括隐私、来源、使用、保管、质量的保障。
第三,风险模型管理,在次贷危机之后,美联储加强了对所有银行机构的风险模型的管理。我在美国运通的最后5年创建了运通的模型监管和验证中心,对全公司的1000个模型进行全面的管理。
第四,自动化监控体系,如何实时监控业务、风险指标、数据、模型、稳定性、衰退情况,及时地预警和快速的应对,以对操作风险进行有效把控。
一家金融机构如果能在以上四个方面做到高效并加以完善,将会是非常不错的一种状态。
扫码关注公众号“AI金融评论”(ID: aijinrongpinglun),加入专家直播群,观看全部云峰会内容回放。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。