您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
政企安全 正文
发私信给又田
发送

0

为了怼黑产,他们祭出了AI……

本文作者: 又田 2017-09-04 13:40
导语:古语讲“以牙还牙,以眼还眼”,在与这些黑产对抗过程中,安全团队所面临的,或者说需要考虑的又有哪些呢?

雷锋网编者按:随着黑产链上的攻击者们手法愈发快且专,除了在传统领域与之进行对抗,AI似乎也被当做灵活性和对抗性极佳的武器引进。古语讲“以牙还牙,以眼还眼”,而在与这些黑产对抗过程中,安全团队所面临的,或者说需要考虑的又有哪些呢?

腾讯安全平台部总经理杨勇在2017腾讯安全技术国际峰会中,以“AI技术在信息安全领域的应用”为主题,分享了AI与安全结合,进入安全领域下一阶段所要思考的一些事情。

下面为杨勇在现场的演讲,雷锋网编辑在不改变原意的基础上做了适当的删减和整理。

首先做一下自我介绍,我从事安全行业的工作已有十几年,在安全攻防领域,我是一个老兵,但是在AI安全相关的领域,包括AI安全,我还是一个新人。其实这个领域很多人真正开始研究,并且付诸于工业实践的时间都不长。这是新兴的领域,所我今天与大家分享的内容,更多是作为个人、安全平台部的团队以及腾讯,在一段时间内的实践心得。

我个人判断,这些心得并不会是AI安全领域最终的结论,或者是一把通向真理的钥匙,但一定是有意义的视角。实际上,对于AI安全的发展来说,一切都是刚刚开始。

下面我先给大家放一段视频,我觉得这段视频很好地诠释了AI给我们带来了什么。

为了怼黑产,他们祭出了AI……

这是ABB的一个机器人,这段视频取材于2012年,不知道大家观看这段视频后的感受是什么,实际上给我个人的感受是,技术的演变会给我们带来完全不一样的感受。

从人类历史的发展来看,人类能在地球上成为一个TOP级的物种,实际上经历过一个巨大变革,就是工业革命时代。在此之前,人类的体力并不优于这个世界上的其他物种,但在工业革命以后,人类的体力已经远远地超越了地球上的其他物种,为什么?

因为人类拥有了机械,这些机械给人们带来了远超动物的体力。比如说我们可以造出200马力,甚至300、500马力的汽车,这些带来了百年来人类突飞猛进的发展。

人类还有一个重要的能力,就是脑力。在工业革命之后,人类的脑力发生了根本性的变化和变革。我觉得AI技术的发展,未来也会给人类带来这样一个变革。

大家试想一下未来的世界会是什么样的?如果人类有了250倍马力的体力,并且有250倍的人类现代智慧和计算能力的脑力,用这个250倍乘上另外的250倍,这就是我觉得AI可能会给我们带来的变化。

当然这些变化和对未来美好的预期也会带来一些担忧,就像一切新兴事物出现以后,很多人会提出担心。比如这个视频当中,两个机器人拿着两把日本的武士刀,他们可以做到刀尖和刀尖相抵而不错位,给大家的感受是像机器人在对着镜子移动。可以做到如此精准并且有力。而对比人类,会显得我们的能力与他们简直无法相比,所以AI会不会给人类带来很多威胁和风险?

这是之前在各大媒体上广泛流传的新闻报道,讲的是在2008年的UBS,曾经有无数的交易员,他们从事着股票交易和金融交易工作。在2016年,因为人工智能和运算技术的发展,不再需要那么多人类的交易员了,所以他们所在的场地已没有那么多交易员,变得空空荡荡。很多人根据这幅图片得出结论,未来AI其实对人类构成威胁。

但是好消息是什么?因为我本身也是一个技术人员,所以我有一些刨根问底的精神,我去找了一下这个文章的原始出处,表达的却是另一种意思。他讲的是曾经2008年的时候金融非常繁荣、昌盛,所以UBS租用了很多席位去做交易,但2008年以后的金融危机导致其削减预算,所以搬到了更廉价的交易大厅,才空出了许多席位。虽然这是一个假消息,但并不能说明他们的担忧是多余的。

其实大家担忧AI会抢去我们工作,这件事情可能发生也可能没有发生,或者在某些领域正在发生。但作为安全行业来说,可以感受到AI带来的一些实实在在的好处。比如传统的安全领域常用的密码鉴别用户身份,随着AI技术的到来,诸如人脸识别的生物识别技术逐渐变成可能。

同时,当我们把机器学习的方法用于恶意代码的识别,其实也极大地提升了对恶意代码的对抗和识别能力。这都是一些积极的变化,但在安全领域,也确实发现了很多问题。在此之前腾讯召开的CSS(第三届中国互联网安全领袖峰会)大会上,很多与会专家都谈到了我上面举的这个图,因为人工智能实际上应用最广泛的应该是三个领域,第一个是图像识别领域,第二个是语音识别领域,第三个是包括机器学习的通用技术的使用。

为了怼黑产,他们祭出了AI……

图像识别领域,在我们的生活中广泛展开,运用到很多领域。实际上目前生成对抗网络方面,已经有众多学术界的专家、学者做出一些样例。例如左图,这是一个交通标志,实际上通过添加一些特定噪点,可以让对方对交通标志的识别出现错乱,进行错误的识别。而右边这幅图就是在人脸识别领域,某大学的研究团队制造了一个比较特殊的研究,当你戴着这个特殊眼镜的时候,会引导机器做出错误判断,把自然人A识别成自然人B。这都是学术界已经开始发现并且指出的一些问题,且在特定实验环境上得到了验证。

实际上这些学术上的尝试,确实告诉我们在大量地使用这种机器学习、算法和AI识别算法的时候,我们还有很多隐患和安全问题有待解决,这些隐患是真实存在的。

大概在一年多、两年前我们关注到了这些变化,同时也意识到几个问题:

第一,我们是否应该在实践中更多地去尝试和探讨AI技术作为实际工作中的一个技术的使用可能。

第二,随着越来越多的业务使用,我们尝试使用AI技术、机器学习技术的同时,是否黑客也在尝试使用这种技术。

第三,当将这种技术用于业务和安全建设的时候,如果进行不恰当地使用,或者使用的算法存在某种缺陷,会导致黑客或黑产利用缺陷达成一种攻击,取得更高的获利或效果?

这是我们的思考,所以在这一年多、两年的时间我们进行了一些实践,下面我和大家分享的就是一些实践经验。   

首先我讲的是在业务安全领域的人机识别场景下的黑产对抗和应用情况。

在此之前要先和大家讲一下,为什么人机识别在黑产领域,或者在业务安全领域是很重要的事情?

上面我给了大家一个数字,45亿,45亿是什么?

为了怼黑产,他们祭出了AI……

大家都知道腾讯是基于一个社交网络的公司,这是我们业务的一个基础支撑体系。而基于社交网络的公司,实际上不可避免地面临账号问题。正如大多数互联网公司一样,他们都会有自己的账号体系。而腾讯每天所面临的,针对账号的攻击、恶意尝试,基于自动机的是多少次?这一天大概是45亿次尝试。

如果尝试成功一个账号,会给他多少金钱?大概是0.008人民币。简单地计算一下,一天3600万。也许这个数字并不确切,但是从这一规模大家可以感受到,为什么有很多技术优秀的人会投身在此?因为这是一笔非常赚钱的生意。

那为什么有黑产愿意付费给这些人,用如此高的费用去换取这些利益?

因为社交网络背后的价值非常巨大,包括用户数据、隐私,包括背后所衍生的,如电子商务、虚拟财产安全等拥有有巨大利益。关键点就在于此,正因为有如此大的利益,所以不难想象,从事黑产的人在里面的投入和技术的探索非常有动力。

大家常会听到黑产,黑产到底是什么样?现代化的黑产又是什么样?

我们经常从电影、电视上看到的黑产,更多的是一两个极客,可能戴着墨镜,或者头发乱乱的,在一个黑暗的角落里敲代码,对技术进行渗透,但实际上还有另外一种黑产,我很难用具体的词汇描述,但与传统意义的黑客、极客不一样,这种黑产更多是以金钱为目的,而并不是以技术精神达到极致为目的。

这里的黑产实际上有几大特点。

第一,具备工具化,是以规模化、批量化生产为依托,实际上更像一个小型的工厂或工业体系。而且可以看到的是,里面有很多配套的硬件设施和设备支持。这个右侧插着很多卡的图,在国内我们叫做猫池,实际上是一个一个猫,上面插了大量电话卡,可以实现电话卡的拨号。目前很多体系是基于电话卡来进行自然人识别,但实际上在黑产下完全无效,因为他们有专业的设备和大量的电话卡去使用,完全可以突破这种体系。

为了怼黑产,他们祭出了AI……

再下面就是像墙一样放满各种各样手机的设备。实际上在对抗很多自动机的场景下,大家会觉得如果我有一些模拟软件的识别,再加上一些协议识别是可以对抗的。而现在已经进行到可以构建这样一个墙,装满真实的手机,在上面进行自动化模拟,这里的对抗实际上非常剧烈。这实际是我们抓到的一个黑产团伙,通过这个团伙可以看到对方的武器装备非常先进,对方不是像我们想象那样,仅有大刀、长矛,他们也有坦克、飞机、大炮。

前面所说的是硬件装备,下面是软环境,即研发环境的简单陈述。大家可以看到,其本身的架构设计有条理性,且配有豪华的硬件设施,并搭建了一个用人工智能识别验证码的平台。用人工智能实现验证码的好处在于,可以批量化地去攻破这种账号登录体系。就像前面说的,每攻破一个就可以达到0.008人民币,如果用机器跑一天可以跑多少?一天可以跑上千万次,这是一个非常丰厚的收入回报。

同时,他搭建的这套人工智能体系是基于神经网络的,当时查获后我们进行了测试,其对市面上所有的验证码识别成功率很高。这个团伙实现了工业化的进步,用人工智能达到了行业的垄断和霸主地位。据我们预估,当时这个打码平台,实际占黑产中攻破自动机的领域80%左右的市场份额,可以完全垄断了这个行业。

人工智能打码,与以前的OCR有什么区别?OCR有很多可以做到较高的识别率,这里我给大家举例感受一下,不仅是简单的图像识别问题,其中包含一些深层次的智能对抗问题。

为了怼黑产,他们祭出了AI……

因为验证码往往是分层的,在这种情况下已经被识别成较可能是坏人的情况下,验证码较难于识辨的,或者说人类看起来有点费劲。但大家还是能看出来是一串字母,这一串字母人类肉眼比较难识别,但实际上机器可以识别到95%。

那怎么办?我们采用了一些小技巧,大家看一下上面的小字,上面的小字是中文,我在这里给大家翻译一下,这段小字就是请你按顺序输入第5位、第2位和第3位。

目的是什么?为了避免他用人工智能图像识别的技术,把这些字母输入识别出来以后,按顺序直接输出。所以通过我们的人机识别平台,进行了语义调整,让其按次序进入,这样我们就可以以对抗图像识别的能力来进行对抗。

大家猜一猜,在使用了这个小技巧后,对方使用了神经网络的对抗体系与我们对抗时,用了多长时间攻破这个技巧?大概是一天半的时间。据我们观测,我们构建一个蓝军平台一天可以做到百分之四五十。而黑产对于比较简单语义的大概在一天半左右可以做到80%、90%。所以神经网络对于比较简单的逻辑,比较相对固定的答案,或者逻辑不是很复杂的这种情况下,他的变种能力、对抗能力是非常强的,不仅仅是一个图像领域的对抗问题,而是智力领域的对抗问题。

这也给我们一个深刻启示,实际上我们传统用于黑客攻防对抗的,不管是攻方还是防御方,策略对抗领域其实慢慢在分级,对于一些弱的逻辑和一些简单的策略,机器会越来越有优势,而人类的优势已经不在,人类也许需要更有想法、创意的领域,才能固守我们的领域,从现有来看,这就是一个现实的例证。

我刚才提到的这样一个黑产领域的霸主、垄断企业,他大概是一个什么样的规模?这个所谓的“企业”其实有80个人,其种有相当一部分人是非技术人员,其中有一部分人是机器的老师,是码工,他会先拉一批人机对抗的验证码下来让人去打,然后通过人去识别这些图像,让机器通过人的监督学习这种识别能力。当人教会以后机器后,他就不用再雇佣这些码工,机器可以自动识别。

而这80个人,他们大概创造的收入是一天可以挣到30万。请注意,这80个人里,其实有相当一部分人的收入非常低,因为他们是客服。其实这80人的核心团队里,只有两到三名是最核心的研发和搭建体系的人,这些人是真正的大头。一旦随着这种技术的扩散和使用,大家想一想人机对抗领域面临的挑战是非常大的。

我们是如何应对这种问题的?这个现象是什么时候被我们发现并且处置的?

大概是一年多,将近两年多前。所以我想让大家也感受一下,今年我们看到人工智能的话题在安全会议上,包括工业的会议上被谈到越来越多。但其实黑产,学习研究,并且付诸于实施和使用是在两年前,将近三年前。我们可以感受到对手的能力和速度,以及他们对于技术的执着和进取心,我觉得是一个很大的鞭策。

所以我们受这件事的启发,在与黑产对抗的领域在慢慢反思,除了在传统领域跟他进行对抗,我们也尝试引入了一些AI的技术,因为有一句古话讲以牙还牙,以眼还眼,既然他可以实现如此有灵活性、对抗性的能力,那我们为什么不应用?所以我们也在使用一些技术跟他进行对抗。

这是我们举的一个例子,大家可以看到,我们依然是打出验证码,但是因为我们可以根据各种各样的策略信息判断出他实际上使用的是一套AI平台。和人一样,AI是一种智慧,这种智慧也会犯错,所以我们也研究AI在图形、图片领域的缺陷和问题,比如CSS大会中提到的,可以进行错误的引导和训练。我们尝试把这种技术用在验证码领域,我们发现在这种技术使用的时候,其实我们可以引导机器去做出错误的识别和判断。

比如说hsql,实际上我们引导机器做出了错误的识别,把s识别成b。这种技术的使用对于人来说是一种体验的提升,因为人的难度并没有增加,但对于机器来说,我们会让它进行错误的判断。

为了怼黑产,他们祭出了AI……

回到前面我举的这个例子,我们曾经用过一些小技巧,但是失败的一个例子。我们有什么办法让AI不再进行那么高效的识别?

我们把这套技术加进了中间,并且把AI在尝试识别的验证码里加入了一些代码进行混淆识别,我们发现如果进行适当的算法调整,可以引导AI的错误识别率提升33.5%。我认为这是一个很有潜力和研究价值的。因为当AI技术和机器学习技术进入了攻击这个领域,其趋势是不可阻挡的,如果你想做好防御和对抗工作,那在这个领域,你保持学习进取和创新探索,这是必要的。

而实际工业上的实践结果,我们可以看到,经过不长一段时间的探索,提升和完善空间还是很大的。请大家注意,刚才我们看到的验证码实际上尺寸是非常小的,如果我们相对来说有一个比较大的人机对抗的界面和场景,这里的改善空间、完善空间和优化空间会更大。因为比较小的验证码做图像对抗的战场也很小,所以你优化和对抗的空间也会很小。

第二个有趣的思路,当我们和他们对抗的同时,我们想到了一个有趣的思路。黑客的方法往往是暴力的,不按常理出牌的套路。比如我们曾经和黑客的人工智能对抗,我们采用了一个方法,你既然用神经网络来识别我们的字符,那我们就制造出更多的字符库,使用更多的字符库跟你进行对抗。

但很不幸,我们发现机器的算力和人力创造字符的算力完全是不成比例的,而且因为他是可牟利的,所以他只要有百分之三四十的盈利空间就可以做,他不需要做到非常高的标准。但作为防御方,如果你做不到95%、99%的防御标准,你的防御可以说就是失败的,所以这是非常不对称的一个战场,但并不意味着我们并没有机会。因为我们发现就像传统安全一样,很多黑客的技术和手段稍加改善,其实对于防御非常有帮助。

比如像生成对抗网络的手段,我们发现它其实也可以很好地来生成字库和字体,如果我们能生成,其实我们又有了一个比较强大和多样的武器库,在这里是否也就意味着我们有非常有利的武器?

在我们实践的过程中,我们发现这对于拖缓他们的攻击效率是非常有帮助的,但我们发现这个思路,也不是完全有效的。因为在AI攻防对抗的更深层次,我们发现如果你在一个战场与AI去进行博弈、对抗,往往会使自己精疲力竭,为什么?

因为在某些领域,其实技术发展的水平是不均衡的,比如说图像识别,实际上图像识别领域已经发展得非常非常好,如果我们在图像的混淆和对抗上与黑客的成熟算法和成熟体系对抗,我们发现是非常吃亏的,所以我们引入了更多的想法,这个想法是什么?

如果一场AI的博弈,我们把自己和对手想成博弈的两个对象,那实际上决定我们攻防成功的关键是什么?我觉得第一个是数据,这个数据决定了天花板的高低。第二个是算法,算法决定了你有多大程度上去接近这个天花板。

所以作为腾讯这样一个公司来说,我们就要发挥好这两个地方的优势,第一个是,我们是一个对数据积累非常多的公司,我们现在用于此处的安全数据大概是11个P,如果我们把11个P做好,我们可以做出非常高的天花板。

第二,如果我们在算法上结合了很多数据和业务的行为数据进行关联,实际上我们可以很大程度上接近于天花板,这是我们做的一个模型,大家可以看到,我们把多个用户行为和黑客行为进行了关联,然后把这种行为数据和图像上的对抗数据结合,我们把他做成一个完整的链去考虑,用一个完整的时间窗去识别,如果我们不仅仅是在图像领域对抗,而且在完整的行为链对抗,我们发现正常用户和黑客、黑产是有显著性的行为差异,如果我们把这个模型建好,是真正可以抵御他的。当然,这些也非常需要在AI的算法和数据方面的理解和建设工作。

所以总结一下,在业务安全上,其实在AI攻防这个领域,我们觉得实际上并没有一个一招致敌的方法论,更多的是持续运营的过程。

持续运营的过程有两个关键因素,第一,在数据的积累和剖析上,选择什么样的数据,积累什么样的数据,以及你积累长时间的有效性和效率,这是非常关键的事。

其次,你对于数据的理解,也就是说对于业务的理解,不仅仅是基于安全层面,你也要理解本身的业务,这样对于数据的挖掘能力比较强,你就能设计出一个更高效的算法用于线上的对抗,所以这两个关键点是你决胜的关键。也就是说我们最后总结下来,就是一个持续运营和对抗的过程。

第二个领域是我们传统的安全领域,实际上在我们和大家分享的话题中,我们发现第一个风控领域实际上是非常好写、好做的,而且效果也是非常突出的。

这里还有一个案例,我并没有跟大家分享,就是在我们的登陆领域,除了我们的自动机识别,还有一些登陆领域的恶意行为,比如说电子商务登陆上,包括一些刷单、刷粉的行为,实际上也是非常普遍的。

但这里我们引用了人工智能,大概在3个月的时间,我们把识别率提高了百分之二三十。并且机器学习的技术,可以让我们发现很多之前没有发现的关键因子,可以提取出来。这些关键因子的引入,导致我们可以极大地提升识别率。但是到了传统安全领域,我们发现实际上在这里去构建攻防的技术体系是非常困难的,挑战也非常多。为什么是这样?我也跟大家去进行一些分享。

这是我们现在的传统安全领域,也就是黑客攻防领域的现状。这个领域的现状,我觉得可以用两个词来概括,第一个叫做快,第二个词叫做专。

为什么是这样?大家看一下这里的三幅图,我们看到越来越多的黑客攻防攻击,他是以数据的获取为目的,以专业团体非常隐蔽的渗透为目的,而且他们所有的行为是非常具有自我保护意识的。

为了怼黑产,他们祭出了AI……

为什么会有这样的趋势?先看外部环境,我们可以看到,现在世界上最大的公司,不管是苹果、谷歌、腾讯,这些公司其实本质上都是一些轻资产公司,但是这些轻资产公司具有巨大的市值,为什么?因为他们的数据是高价值的。

他们这些高价值的数据,实际上当黑客进行攻击的时候,是可以很容易进行变现和获取利益的,所以黑客更有动机去获取这些数据。而为了获取这些高价值的数据,黑客也需要保护自己,因为很容易被抓获受到惩处。

历史案例我们也看到,有很多专业团体被抓到后被公布出来。所以所有的这些趋势,外部的打击和趋势会逼着他们越来越快和专业,并且因为打击,逼着他们越来越多地去隐藏。而因为他们越来越多使用零备和未公开的技巧,越来越多的是专业的团体,他们也适用于适者生存的法则,剩下的都是最精英的,所以他们越来越被难以发现。所以这个行业出现了一个趋势,黑客的行为越来越非显性化。

这是我们实际的一个现网数据,在座的各位非常清楚这个漏洞,大家可以看到,这是今天我们流量监测上的实际数据,这个实际数据可以这样解读,大家可以看到最高的尖刺,发现是在什么时候?这个漏洞从公布的时候是图表的零点,到最高的尖刺大家猜一猜是经过了多长时间?达到了差不多三四千次一秒。到这个尖次,就是从这个漏洞在社区公布出来到尖次,半个小时我们就达到了最高峰。半个小时以后反而下降了,然后再出现几次高峰。

所以实际上当一个漏洞公布出来,给你的反应时间大概就是半个小时,而对方攻击的所有对象都是我们的资产服务器,我可以推断出来,有相当一部分人已经把核心资产服务器纳入攻击列表,他们缺的只是一个未公开的技巧或很新鲜的漏洞,会在半个小时内完成漏洞进行马上使用,这就是我们面临的现实。

因为这个越来越隐性化,所以我们对AI探索也是应对这种风险去设计的,比如说DDoS攻击,我们现在发现也是越来越多的攻击去给我们发包,越来越多地去模拟这种游戏。

我们在这里越来越多地模拟业务协议,实际上导致我们越来越难以去识别这里攻击的行为。我们引入了AI,发现他给我们带来一个很好的帮助。

带来的这个帮助是什么?我们可以做到千人千面。所谓的千人千面就是,我们发现人工智能是可以学习的,既然他可以学习,那我们就让他学习各种各样的业务。当他学习各种各样的业务以后,就可以做到一件事:不管你是什么样的攻击,不管是什么样的模拟,因为你和他长得不太像,所以我们就可以把你识别出来。

并不是根据黑客上识别对方,而是根据我们拥有的巨量数据,用一个比较长的时间线,让我们的机器、安全系统去正确认知一个业务,然后在这个基础上做识别。

为什么我们要做这件事?因为现在的DDoS其实在攻击领域面对更新换代的问题,现在的攻击者不能做到精准的流量控制和流量到达。如果他能做到,大家可以想象一下,现有的防御系统都是要失效的,为什么?

因为大多数是基于特征和阈值的控制。如果他可以通过精准控制,他就可以尝试估算出你的阈值和特征,一旦他可以精准控制,他就可以在每次触发防御之前结束攻击,但依然对业务造成损失,这样你就会进行一个长久的苦战,并且无法对损失进行补齐。大家想想这个思路一旦被攻击者掌握其实并不难实现,如果一旦实现,我们现有的防御体系都会被洞穿。

这是在渗透方面的一个案例,也是想向大家展示一下这里的挑战性,这是我们抓到的两个真实的专业团体对我们进行渗透的木马,大家可以看到这两个木马其实代表了两代人,或者说两代技术。

右侧的木马代表的是比较原始的技术,他实际上是一个网页木马,里面有一个很明显的特征,黑客的后门特征非常显性,我下面画的这些红框的部分都是显性特征,用传统的做法这种木马非常好识别。而我们从今年以来抓到的大多数木马都是像左侧的木马,并没有非常显性的特征,所以如果你用传统的特征、阈值、方法,对这种东西的识别是非常困难的,非常容易与正常的文件混淆,并且有一个巨大的问题是,虽然云计算和这种互联网企业规模的扩大,当你去管一个巨量、海量的业务时,你真正面临的误报是不可承受的,这是最大的一个挑战,就是黑客的非显性化,越来越不容易跟正常业务区分,而本身的业务规模和体量又不断增大,这是一个矛盾体,对传统的安全架构和安全思路提出了巨大的挑战。

这是我们最佳实践的一个尝试,严格意义上这是一个实验,并不是一个最佳实验,我相信这里未来的路还很长。我们这里做的实验是这样,一个是算法优化,我们用了两套机器学习的算法,一套是68.75%,另外一套是92.19%,发现都不能在实际应用中满足我们95%以上识别率的要求。这个是指webshell的识别,我们这里想到一个方法,根据人的特征引用变量,并把A和B两套算法的结合,随着新特征的引入和算法的引入,进行权重和模型的重新搭建以后,可以达到96.88%。

所以我觉得算法的优化,选择什么样的算法和特征是这里面的关键。其次,如何选择算法也是在实际工业领域中很重要的思考点。

大家可以看到,我这里的这两幅图,如果用前面的思路,去长时间学习业务,其实我们是可以做到有一个很好的帮助。大家可以看到右边这幅图,有几个白点在模型之外,在常见的领域我们可以看到防御方最痛苦的是什么?

有一个巨大的难点,你要不断地加白名单,因为正常的业务和操作员的行为是异常的,但又是正常用户的行为。对这种行为,现在的传统方法只能不断地加白名单,而到一定程度是有问题的。如果用机器学习的方法,实际上可以很好地去学习,虽然是一个异常点,但依然可以识别出这是一个好人,并且对坏点进行标注。所以这是在机器学习领域和数据保护领域非常大的帮助,可以帮助我们极大地释放人力,解决传统领域的一些白名单的运用以及自然人的定性、定位问题。

在实际工作中这种方法论并不是完美的,也面临一个挑战,深度学习在实际工作领域效果非常好,但是在线上的时候效率问题会非常大。尤其对于腾讯这样一个体量的公司,或者对于Facebook或谷歌这样的公司,运算挑战在某些场景几乎不可接受。怎么解决?

我们也想了一些有意思的想法,就是我们用深度学习来思考,用浅度学习来检测,我们用深度学习模型来发觉黑客攻防领域,或者前面提到的业务安全领域的一些本质问题,一些我们没有发现的特征问题,我们用它来提取。但构建线上实时打击模型的时候,我们引用浅度模型,这样在效率、精准度和透析事物的本质之间取得平衡,我们觉得这是一个很好的收获,在工业实践中可能会对大家有参考价值的东西。

最后我进入一个尾声,再次跟大家总结一下,经过我们这段时间的实践有三个经验跟大家分享。人工智能想跟安全结合,或者我们想更多地把安全领域进入下一个时代,我觉得最主要的三件事是需要我们思考的。第一,数据,我们需要有海量的数据,需要有一个真实的战场,在这个真实的战场截取海量的数据,去训练我们的AI,因为这决定了AI到底能走多远,天花板有多高。第二个事情是算法,不仅仅要对人工智能的算法有理解,更重要的是要对业务有理解,这样的话在构建算法的时候,可以更有针对性,能发掘出更多的变量,这样在识别的时候有更高精度。第三,耐心,因为这毕竟是一个长期对抗的过程。

作为AI来说,或者AI安全来说,我觉得我们不妨这样想,如果我们现在看27年前的互联网,在刚刚发明的时候,我们会告诉他们你这不是真正的互联网,我觉得对于AI安全来说也是一样,这条路还非常长,AI或AI安全刚刚起步,这意味着我们有无限美好未来的可能,所以希望能有更多的机会跟大家交流,我们一起去探索美好的未来,谢谢大家。

雷锋网整理。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说