富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

本文作者：周蕾

2020-05-29 13:10

专题：金融联邦学习公开课

导语：重新定义大数据。

近日，富数科技安全计算首席专家卞阳做客雷锋网公开课，以《隐私计算重构边界，联邦学习重新定义大数据》为题进行分享。

卞阳在课程中用武林各大门派做例子，详细分析了联邦学习和隐私计算安全部分的主要算法原理，以及联邦学习如何实现跨越数据要素边界，在供应链金融、联合营销、金融机构存客促活等具体场景中落地应用。

关注微信公众号 AI金融评论，在公众号聊天框回复“听课”，进群可收看本节课程视频回放。

以下为卞阳课程全场回顾和互动问答精选，雷锋网AI金融评论做了不影响原意的编辑：

感谢大家能在周五参加公开课。我叫卞阳，来自富数科技。

数据有多重要？早期的语音识别有这样一个情况：男声识别率很高，但女声识别率很低——因为（用于训练的）素材语料太少。

如果两家公司对比，算法水平高和数据量很多，哪家的人工智能会做得更好？一般是数据更多的那家，因为它可以不断优化算法。

今天主要和大家交流隐私计算、联邦学习，以及它们与数据、大数据的关系。

隐私计算与联邦学习关系背后：AI与密码学的悖论？

现在人工智能处处可见，有观点说人工智能会定义业务边界，其实安全也有相同的特点。数字化时代如果没有安全，业务也很难展开。

安全和人工智能之间是何关系？未来若无智能，安全难以实现；若无安全可言，人工智能亦无用武之地。

从信息论的角度来看，人工智能和密码学颇为有趣，二者实为一对悖论。

人工智能是数据经过加工，提取其中信息，训练后变成知识。这是熵减的过程：熵越少，可用性就越高。

密码学正好相反：隐藏有用的信息，编码、打乱，变成另外一个空间的数据。这是信息熵增的过程，可用性越来越低。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

但现在既想做安全，又想得到更强大的AI，得到更多的知识，如何是好？

如下图所示，原始数据处理后，变为脱敏数据，信息量减少。但这并不足够，还需要对中间数据进行加密——（这些步骤）都是隐私计算范围。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

但这并没有结束，还需从中提取有价值的信息，引入联邦学习，提取更多知识。

以前联邦学习、人工智能和安全颇有些井水不犯河水的意思，互相关系不大。

2016年，欧盟制定GDPR，于2018年正式生效。而谷歌正是在2016年提出的联邦学习——这时，人工智能跟密码学的交集变多。

而当联邦学习逐渐成为热点，跟隐私计算的重合度就越来越高。

下一阶段，在完全数字化时代，（人工智能与安全）二者很可能越来越深度融合。比如信通院制定了多方安全计算的数据流通产品标准，听上去是安全相关，但也包含了机器学习。

联邦学习的框架，不可避免会与安全相关。信通院也在制定联邦学习的标准，当中也有不少关于安全的内容，于是变成了你中有我、我中有你的状态。

“联邦学习里的安全怎么做？”这是必然要讨论的问题。之前很多专家已分享联邦学习的算法原理，安全方面相对讲得不多，我们这次会侧重隐私计算方面来谈。

若以江湖门派类比，安全多方计算（MPC）是少林派：历史悠久，功力深厚，最早可以追溯到上世纪80年代，有秘密共享、传输混淆电路等一些非常强大的独门武器。

武当派可以对应到同态加密。武当派的特点是简洁、优雅，同态加密也类似：表达式清晰明了，实现起来却很复杂。真正要做到全同态其实很难。

后起之秀华山派，可信计算环境（TEE）。当然，TEE跟联邦学习关联度较低，但也不排除某些联邦学习解决方案能与TEE有所结合。

除此之外，还有像盲签名、隐私信息检索、零知识证明等这些相对更小的密码学协议分支，同样非常有用，好比泰山派峨眉派，它们共同组成了丰富多彩的隐私计算江湖。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

「少林派」和它的三大「独门武器」

秘密共享安全多方计算

共享这个词有点让人误解，它并不是把各自的秘密数据真的共享了，而是各自的秘密还是可以得到安全的保护，但可以一起去计算得到结果，这个结果是可以共享的。

秘密共享的安全协议里，有数据的提供方，另外还有计算方，当然计算方跟提供方可以合二为一。

对比一下秘密共享跟同态加密的差别：同态加密是由一方提供密钥，计算是在一个环境一方进行的。秘密共享叫安全多方，所以是在多方进行计算，有这样一个特点。

比如说提供方1有个数，以加法为例，提供方把数切片，有几个计算方就切成几片。切完之后有一片留在自己手上，不发给别人，其他片分发。实际怎么切片，也有很多方法，不是只有一个算法。

现在先理解切成多片，每一方也会拿到其他方的切片，拿到以后就在本地做计算，比如说x1+y1+z1，这就是一个加法，加起来形成新的等式。c1c2c3就属于中间结果，最后要求和，中间结果已经把各方的秘密混在一起了。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

联邦学习的计算表达式里，往往有多方数据，听起来很复杂，但通过这个方式，实际上没有那么复杂。

当然，秘密共享有安全条件，即安全门限。n-1的安全性，但（两方的情况下）n-1=1，所以两方加法不存在安全模型，必须要多方。

但在联邦学习当中，很可能建模只有两方，这是否会出现一方推算另一方的情况？

从信息论熵增熵减的理论来看，（为了避免这种情况）表达式不能够太简单。好在机器学习计算往往是矩阵集合计算，这样复杂的表达式计算完会变成一个值，不可能由此反推原始数据。所以越复杂的计算，安全性越高。

光有加法不够，还需要有乘法，但乘法复杂度比加法更高，原理类似。

安全多方计算有两个优点：一是过程更加对等，不需要第三方拿了一个公钥或私钥去生成，其他方都依赖它进行加密解密。二是结果可以按照协议，分发给相对应的参与方。

同态加密（的原理是），谁有密钥，肯定需要他去解密，安全性原理有所不同。

有些场合很难找到可信第三方，这时正是安全多方计算的发挥空间。除了乘法和加法，还有其他更复杂的计算，比如机器学习里面有 log、指数等，这些运算都可以用乘法和加法来构造。不管运算多复杂，理论上都可以用多方安全技术求解。

茫然传输

第二个是密码学里非常重要的茫然传输，也叫不经意传输（Oblivious Transfer，OT），是联邦学习做安全对齐的必备。

比如Alice手上有两个信息，Bob想要其中一个，但是不希望Alice知道他拿了哪一个。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

密码学可以把协议构造更复杂些，比如n个信息里取其一，或取m个，取出数量不能超出约定。既要有正确性，还要有安全性，这就是OT协议。

混淆电路

安全多方计算里面还有个“武器”混淆电路，由图灵奖获得者姚期智老师发明。

原理是：假如所有的输入都转成0和1，进行比特的「与非或」门电路计算，最后得到一个结果。

但是Alice和Bob的输入，都不希望另外一方知道，通过生成门电路处理，最后拿到的一个结果无法反推双方的输入。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

如何在两方间构造电路？如果是在对方那里运行，不可避免要将输入（内容）给到对方，或者从对方拿（结果）。这时，不经意传输就派上用场了，对方无从得知你拿走了哪一个，这就隐藏掉自己的一个信息。

所以，多方安全计算的混淆电路和茫然传输之间有关系，这些都是比较底层的理论。安全协议密码学的这些内容，构成了联邦学习的安全基础。

联邦学习如何重新定义大数据？

大数据这个词，从提出到现在已经很多年。早期，大家更多采用内部数据，随后逐渐发现外部数据很有价值，就希望获得尽可能多的外部数据。但在国内外监管法律法规下，获取外部数据存在合规要求，大数据（的发展）也就受限。

数据如今已是生产要素。联邦学习怎样让AI跨越数据要素边界？这就是前文所述的“武器”如何运用。

安全对齐

在做机器学习之前，往往需要完成对齐的动作。如果不知道两边的样本，也不清楚如何使用，学习自然无法进行。

举例：Alice和Bob各有一个样本集，两边怎么安全对齐ID？首先要处理自己样本里的ID，这是一个加密的过程。我们可以这样理解：

Step 1：把自己信息和一张复写纸放到信封里，给到 Bob。

Step 2：Bob在信封上签名盖章，再返回给Alice。

Step 3：Alice拿到之后打开信封，去掉掩码，但因为有复写纸，所以Bob的签名也印到了Alice给的信息上。

Step 4：Bob把自己手上每个ID也做签名。

因为只有他自己有私钥，所以Alice无法生成这些ID。也正因为ID经过哈希后用私钥签名，Alice即使拿到信息，也无法判断对应关系，只有她自己去掉了掩码就事先拿到Bob签名的这批ID，才能正好匹配上了。

如果Alice手上没有ID，肯定匹配不上。如果她有一个ID，Bob那边没有，Bob自然也无法生成一个带了自己签名的信息。

但这并不是公平对等的方案，因为Alice获得了一定的信息不对称优势：为什么是她先知道Bob哪些ID跟她有对齐？

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

好在密码学还有很多种武器，其中比特承诺就是更公平的一种方案，可以保证参与双方通过一种公平的方式来交换信息，参与者相互间要么都能得到对方的信息，要么都得不到。

安全对齐真的安全吗？用户哪些ID的数据参与了后面的机器学习，在一些场景中也是敏感的，能隐藏ID吗？这就变成更复杂的问题了。

所以样本对齐有三个层次的安全：第一个，比较简单的盲签名的安全对齐，但不太公平。第二种是安全公平的交换，第三种要隐藏被匹配到模型中的ID。

对于第三种，密码学也有办法解答。行业中有人提出差分隐私方案，复杂度很高，噪音的加入也会导致模型效果有损失。我们也有另外的一些安全手段，有兴趣大家可以进一步交流。

安全计算

不可避免地，做联邦学习一定要有安全计算。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

我们知道联邦学习有不同的流派，纵向、横向、迁移。横向联邦学习的实现相对简单，因为在本地就可以训练，模型再到云端汇总。

但纵向就比较复杂，一边是y变量，一边是x变量。一个表达式里既有x本方的变量，又有对方的变量，怎么算出结果？

听上去不可思议，好在有前面提到的多方安全计算，即使表达式里有n方数据，也可以从最简单的加法乘法开始构造。只要实现了这两个方法，就能将表达式求值，还能约定表达式结果值如何分配。

用同态加密做联邦学习，相对简单，但限制也更多一些，会需要第三方协助。但在实际商业场景中往往很难找到第三方。此时，多方安全计算就有它的用武之地。MPC（多方安全计算）的多方安全，名词本身和“联邦”更对应，参与方的关系也更加对等，可以在无可信第三方的情形下进行计算，完成建模学习。

联邦特征工程

联邦学习如果没有好的数据，训练效果很难优秀。为保证数据质量，训练前需要进行联邦特征工程。

从名词上可以看出，无论是计算IV值、计算共线性，还是像importance这样用于筛选变量的值，也是用联邦方式来产生的。

在无法获取对方数据的情况下，如何操作执行联邦特征工程？我们通过可视化交互界面，共同做安全计算，能计算出特征IV值，还可以选择多种分箱方式。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

有了这个特征工程以后，也可以判断对方的数据质量，发现那些对接下来的建模有用的特征字段。

正如前文所述，联邦学习需要一个发起方，不可能两边都操作或都不操作，总归有一方在做具体主要的动作，当然另外一方可以去做审核和批准动作，有权限管控。

进行联邦学习不光需要底层算法，同时也需要一个操作控制友好的界面。

另外还有探索性分析，比如说是否有异常值、缺失值，可以预先设定好规则，自动过滤日常值，更好控制训练质量。

联邦机器学习

联邦学习最核心的，肯定是机器学习算法。下图是机器学习已完成任务示意图。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

联邦学习过程中，网络上两方或多方共同计算，如果了解不到计算状态，我们很难给出适当判断。联邦学习的性能比单机本地要慢很多，训练几十分钟甚至更长时间都非常正常。在参与方之间需要将训练过程可视化。

不同的场景下，算法变化会很多。为实际适应各种场景，需要有尽可能丰富的联邦学习算法。

当企业发现自己数据有限，要和对方外部合作。数据获取不到，互相不信任，或者有合规上的隐患。这时通过联邦学习，数据会变得更易用。拿不到数据本身，但能能拿到数据的能力。

企业也希望使用过程尽可能简单方便，比如哪些数据可用、授权权限管理；希望可以发现、搜索有价值的资源，在合作的双方或多方相互能发现，有点像微信那样加好友才能连上对方、验证通过。

之后怎么合作？有一方创建合作的项目，对方有什么样的数据资源，是y变量还是x变量，横向还是纵向，都可以可视化创建合作项目，在合作项目中约定，之后就可以进行安全数据处理。虚拟融合就是安全对齐的过程，形成看上去是虚拟的样本集，实际上还是分布的。然后选一个联邦学习算法，在虚拟融合集上进行训练。

联邦学习结束后，它还是一个分布的模型，参与方各有各的子模型，所以联邦模型的使用，也要用到安全多方计算。

各方有自己的数据和子模型，在表达式或数的模型里，它的服务计算结构也是不一样的。所以说我们还要支持把模型部署为服务，变成像API那样可以对外提供，这样才形成一个闭环。

通过联邦学习，本来外部拿不到的数据，可以因此跨越边界，获得大数据能力，成为真正的大数据。

联邦学习在金融场景的「降维打击」

如果能够拿到各种各样的维度，在商业竞争中肯定有更加明显的优势。联邦学习，能够让企业获得了更强大的能力，就像上帝视角那样，得到高维打低维的优势。

从具体案例来看，富数科技在2017年就立项做多方安全计算，那也是网络安全法生效的一年。

我们当时就觉得，数据安全非常重要，也需要有一种更好的方式来使用，所以发起了开源项目Unitedata，有多家合作单位联合研究。

2018年，我们的UD联盟系统上线，已有部分落地应用的案例执行；2019年，信通院多方安全计算的相关标准出台后，我们也参与其中。富数安全计算联邦学习平台阿凡达（Avatar）也是最早通过信通院产品认证的。

为什么叫阿凡达？众所周知，这部电影是说地球人通过“阿凡达”这个化身进入到外星世界，本体没有转移。这个外星空间里，纳美人的头发就是一种神经元，由此连到灵魂树，互相达成共识。

这点十分有趣，我们觉得这跟联邦学习异曲同工：本体不转移，以及相互连接达成更广泛共识。所以阿凡达的意义是数字的世界里相互连接，形成更开放生态。

富数Avatar平台支持私有化部署，其中有两个核心模块：底层联邦学习算法模块，加密计算模块。正如同计算机不光有 CPU，还需要有GPU一样，有两个核心共同工作才能够实现联邦学习。

使用阿凡达的两家机构，他们可自身直接达成连接，不经过包括富数在内的任何第三方，就可以完成各种联邦学习项目。

案例一：供应链金融

供应链金融里的应收账款，银行需要税务开票数据，但不容易拿到。

在一些项目中，企业若无授权，外部很难拿到数据，即便拿到也只是单个小的数据。但只拿一条数据，没法完成联邦学习，得要几千、几万条税务的数据和银行的资金流水。

一边是银行资金交易信息，一边是经营信息来进行训练，两边维度不同，也没法汇集到一起，这在以前难度非常大。

让银行把数据放进安全沙箱是办法之一，但沙箱数据要出库有风险，这就导致：虽然我们希望公共服务数据能够对外赋能，实际操作中却遇到安全隐患。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

通过联邦学习，比如银行方企业交易数据仍由本地安全保护，同时可以连接到公共服务数据的开放平台。数据资源在开放平台上陈列可供选择，审核后运行算法，看最终效果。

这样一来，当小微企业想要去申请银行贷款，银行就有更适合的模型来判断。

有些企业可能其实很大风险，经营情况不太稳定，由于银行可以拿到更丰富的数据，比如从用电数据判断企业经营趋势，在风控模型上做得更好，预防潜在风险。贷前、贷中管理和实时监测，也很需要多方数据来训练模型。

上文提到，模型部署成服务，可以做到明细的数据不需要传到银行，用这个模型即可计算出结果。这对企业来说，授权的范围可以进一步缩小。不管是公共服务部门还是大数据机构，对于掌握数据方而言，数据安全性也更高，避免了数据在使用的过程中被留存，或者面临更大风险。

案例二：联合营销

品牌商想和合作方联合营销，必然要对用户做一些判断：哪些用户适合什么类型的产品？但些信息是汽车厂商自己掌握，大数据平台很难判断。

之前需要汽车厂商把CRM之类的信息，在大数据能力开放平台里建模，即驻场式建模。但对品牌商来说，数据放出去也存在隐患。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

通过阿凡达联邦学习，可以利用大数据平台更大维度的数据——实际使用中可能有上千维度，联合建模，再对用户进行分层分群，不同车型能更好匹配潜在用户，活动转化率和最后效果得到巨大提升。

案例三：金融机构存客促活

每家机构都会有大量睡眠客户，非常希望激活，但它本身是睡眠客户，很难得到更丰富的信息去判断。用外部标签判断客户，相当于把自己的客户信息泄露出去了。其次，如果不能双方建模，匹配度也不高。

存量客户对外进行画像匹配时，也可以通过安全方式去查询，这跟前面讲的盲签名非常像。然后建模，非常典型的纵向联邦学习模型，之后可以更好判断，把客户分组，不同组对应不同营销策略。

在这个过程中，金融机构并没有拿到存量客户更多的信息，消费信息、上网行为拿不到，非常合规，但已经知道了客户适合的产品，提升了金融竞争优势。我们在实操中发现，跟专家模型相比，它的转化率可以提高100%以上。

富数科技安全计算首席专家卞阳：隐私计算江湖与联邦学习的「上帝视角」

联邦学习直面挑战和机遇

安全与合规

用了联邦学习是否就一定安全合规？联邦学习降低了数据泄露的风险，同时在具体使用中依然需要遵循数据合规的法律要求。安全对齐在某些解决方案或者情况下也还是会存在一定隐患，我们提供了更加公平的、尤其对甲方更加安全的对齐方式，合规性也更好。梯度泄露、样本投毒等其他安全挑战，需要有更好的解决方案，毕竟联邦学习也在不断成熟和发展之中。

性能和效率

对联邦学习熟悉的朋友都知道，联邦学习的计算量非常大。以往在本地非常快，不用加密也不用通信，因此（采用联邦学习后）性能上面往往有两个数量级的降低。我们也做了不少优化和尝试，在性能上面还是取得了一些进展。

场景适用性

场景很多变，需要不同算法，也不光局限在机器学习。安全查询就是非常强的需求。有一些情形还没上升到学习的程度，但也要分析得到有用的知识，用多方安全计算可以解决。

在阿凡达的解决方案里，从简单的加密查询到多方计算和统计，再到不同的机器学习算法，还有神经网络、深度学习等。所以在场景适用性上面，我们也已经取得一些成绩。

互联互通

它是多方的应用，两个解决方案之间若无统一标准，联邦学习要进行下去肯定很难。

互动问答精选

问：哪些金融细分领域更适合联邦学习？，

卞阳：细分领域非常多，比如保险、反欺诈的应用场景，都非常典型。金融非常依赖数据，只要这个场景需要用到外部数据，联邦学习就特别适合。当然有些场景是不是一定要用机器学习？像刚才提到的供应链，其实双方在进入到机器学习之前，还要做变量的处理。双方都有变量，还想衍生出新的变量，怎么办？这种情况用多方安全计算去衍生新变量，这个变量不反映用户敏感信息，把变量构造出来。

问：供应链金融场景案例里，联邦学习和区块链两种方案有什么区别和优势？

卞阳：联邦学习跟区块链肯定很大区别。区块链不讲学习，共同点都是分布式，在某些情况下也可以相互配合。富数也有区块链松耦合的方案，因为要多方联邦学习，可以在区块链进行智能合约，约定数据的规格、利益的归属，使这个机制更加公平。

问：自己做的隐私保护联邦深度学习模型，用同态加密太慢，差分隐私保护效果不好怎么办？

卞阳：的确，同态加密性能是一个问题，用MPC可以优化，因为同态加密相对来讲比较固定和简洁，但优化空间会小。

问：联邦学习的标准，哪个公司在牵头制定？

卞阳：这个名词首先最早提出是谷歌，微众银行应该是国内的一个旗手。所以IEEE会议的标准，微众银行是发起方，富数科技也是标准组的成员。

问：数据开放平台和模型服务是谁所有的？

卞阳：对数据源来讲，数据开放平台肯定是属于数据拥有者。模型如果是双方共建、训练产生的模型，最后生成的模型服务，是看模型调用过程，包括模型分布情况。除非参与建模的一方，把自己的模型授权给其他方。如果不授权，那就是共有。

问：休眠客户的激活，本质是对客户增加标签维度，然后再激活客户？

卞阳：如何激活，有不同的策略，这时要增加标签的维度。如果因为策略不好，推了他不需要的产品，等于是骚扰，反而对客户有坏影响，所以银行要激活休眠客户的时候也会非常谨慎。提高客户匹配度，也变得非常重要。

问：各部分标注数据质量有好有坏，联邦学习可以怎么做？

卞阳：进行训练之前，要对数据质量做联邦处理和分析，特征工程和探索性。当然这个过程也保护各方数据。统计性信息能不能给，也要经过授权，就可以在进入学习之前判断标注的数据质量。如果前面不容易判断，可以训练出模型再去测试，评估其中维度的数据有没有价值。