0
人在江湖飘,哪有不挨刀。
作为一名有11年经验的资深剁手党,手起刀落,咱们也是参与了N多亿万项目的社会人(双11、618、520。。。)。虽然,现在雷锋网编辑小李已经练成火眼金睛,但是也经历过那么几个“沮丧”时刻。
2008年,我打开了第一张新世界的大门:在淘宝上买了一双传说是耐克dunk sb新款的鞋,收到之后,得瑟了半天,眼尖的室友尖叫一声:不对,你的对勾好像反了。。。。奉行“贫穷我就暂时性失明”的宗旨,我还是开开心心地穿了一个星期,然后在体育课上华丽丽地跑掉了鞋底。。。。
自此,那双辣眼睛的对勾“耐克”就成了剁手党进阶路上无时无刻提醒我的“路标”:注意假货,还有。。。多赚钱。
2012 年双 11 开启,开心的我认认真真地在购物车囤了一个星期的货,只待零点,结果零点的钟声响起,我还没反应过来,提交订单时就遭遇了崩溃——怎么一下就被抢光了?跟我眼光一致的人这么多?
那时,命运给我上了一堂我自己还没搞明白的课:原来还有种东东叫做“秒杀神器”。再到以后,我苦练抢购绝技,却发现虽然和我一样的剁手党越来越多,但踩的坑越来越少。
直到有一天,阿里安全一个做人工智能研究的专家告诉我,他们有个系统,这个系统里的图片数据总量相当于 186 个中国国家图书馆藏量,累积的打假图片样本量超过 137 亿张。以前他们阿里小二人肉对比打假,吭哧吭哧地干活,却怎么也追不上淘宝发展的速度,现在他们让 AI 小二上阵,人工查看1张图片的信息需要 10 秒,5 万人同时工作的效率才能勉强赶上“知产保护科技大脑(AI 小二)”扫描甄别图片的速度。
除了打假,他们还靠 AI 打击黄赌毒,在抢购节点围追堵截干坏事的机器人,并抗击图谋不轨,准备趁机搞破坏的攻击者。
曾经,无数安全从业者告诉我——“感受不到的安全就是真的安全”“什么都没发生就是好事”,我总无法感同身受,但是说到“买买买”,我突然就理解了。
8 月 28 日,阿里巴巴集团安全首席算法专家陆全霹雳吧啦说了一堆,大意是上面 AI 能帮我们顺利“买买买”的东西其实就是阿里巴巴商业操作系统的风控大脑,也叫做“安全AI”。
我突然又不懂了,“安全AI”除了让我们这种吃瓜群众能感受到顺利地“买买买”,背后还有什么黑科技?跟雷锋网一起了解一下。
为了便于理解,我们还是从特别实操的“如何让你不买到假货”说起。
阿里的技术人员是怎么看哪些是“侵犯了知识产权”的商品呢?
对比图片,对比款式,对比商标。
但是,不是所有商家上传图片时,都是“正正经经‘立正’商标拍照”,有些人只露出商标的一部分,有些是摆出不同的角度,还有一些人故意遮挡。对付文字就更“精明了”,他们可能使用变形的文字,并充分利用汉字博大精深的特点。
后来,可以上视频代替图片后,有些商家就更厉害了——在很多帧图片里上传一张“隐晦”图片。
陆全在聊天之前先给我放了一段视频:仿冒商家在一件正品连衣裙上做了很简单的样式改动,比如加了一个蝴蝶结,都能被认出来。
这就要依赖上述打假样本库和相关算法。
有意思的是,陆全告诉雷锋网,现在已经不是采取“敌动我跟”的单点对抗策略,比如,不仅是出现了假货,收集假货特征,被动跟随打击,他们会主动寻找假货特征,甚至整个黑产的情况,综合多方面信息“摸底打击”。甚至在违规商户只是打算上架“假货”时,都能精准“击毙”。
在这样的背景下,依靠 AI 在商品发布环节,96%的造假都能被拦截,在修改的过程中不断检测和控制,最后能达到每一万笔中,只有1.1笔被消费者怀疑为假货。
这种图片审核和视频审核背后所采用的 AI 是阿里提出来的“安全AI”大脑的感知区,这个感知区域的核心技术是计算机视觉技术及语音识别技术,是整个系统的感官系统,是对象识别的基础,为形成后续一系列处理动作迈出第一步。
说白了,“感知区”就是一双“眼睛”。
刚才“抗击假货”只是其中一个应用场景。“眼睛”还有用于线上商品识别的商标检测、物体检测、光学字符识别技术,用于营销环节检测的广告图片分析和视频直播监测技术,以及用于原创作品保护的多媒体检索和图像水印技术等。
如果你要开个店,“眼睛”还要对用于开店身份进行人脸识别、声纹识别、活体检测等生物识别。
不仅是线上,另一个与感知的“眼睛”有关的重要场景是:阿里开设的新零售——线下泛安全场景的保护以及提升效率。
之前有个笑话,说现在小偷已经无钱可偷——因为大家都用电子支付工具,带个 500 块现金出门都筭“身怀巨款”。现在,小偷不仅无钱可偷,可能连实体商品都难以“作案”了。
传统门店抓小偷的链路是这样的:从录像看这些货哪些被人拿走,发现之后,还要看这个人还拿了其他哪些货。确定之后,要找到这个人正面照片,把照片打印出来再分发给保安。整个回溯录像和偷窃人的照片的过程,可能需要12-24小时。
如果说“安全AI” 完全替代保安、店员确实是危言耸听,但它能显著提升效率。原来线下商店每天需要花 2 小时盘货,现在可以实时盘货,原来对丢货要进行12-24小时的盘货,现在AI盘货只需要2个小时。
到底是怎么做的?
“线下店面现在毛利率很低,你肯定不能通过改造硬件成本提高他们的成本。”虽然陆全看上去是高大上的算法专家,但是考虑用户需求很实际,那就只有一个办法,从 AI 算法上改进。
“这些线下店如果采用的是无人店的技术,就会装货架摄像头,对同一个物品有多维去展现,很容易知道这个物品的定位在哪里,但是一般的监控摄像头很难知道一个平面的多维度,有可能商品的位置在这儿,实际有很大的偏差,从摄像头角度,商品的位置已经被挪动,这就要解决二维到三维的问题,我们解决的方式是要对其中很多点事先做多维定位,这样消耗的是算力资源,比硬件成本要低很多。”
这样下来,“安全AI” 就知道到底哪些人真的在偷盗,从而实现预警和跟踪。
一个有意思的数据是,传统打印惯偷照片分发给保安的情况下,抓住惯偷的概率只有5%,让 AI上了以后,这个概率能提升到 35%,但是一段时间后,概率大幅下降,原因是,小偷不敢来了。
“看见”只是第一步,作为一个有“脑子”的阿里商业风控还需要“认知”。“安全 AI 认知层”的核心技术是自然语言处理技术。
再回到线上场景,如果要对抗购物节和我抢热销商品的那么多机器人,“安全 AI”可以做点什么?
第一个案例就是“问答式验证码”,这是平常我们进行账户验证时时不时会遇到的“关卡”。
以前,我们吐槽过这些逆天的“验证码”:
请找出图中的白百何
请分辨出这里的杨臣刚、王大治和孙楠
这些我们都忍了,直到有一天,有人拿出了一张验证码的图片:XXXXXXX,请找出这里的C杯。
“安全AI”比较人性化,好像没有问这么令人肾上腺素飙升的问题,因为它问的问题可能是从大家在淘宝中的评论里提取的。
比如:
“颜色比图片上暗,是比较气质的款式,快递真的超级快。”
AI 会从其中提取情感属性和商品属性,然后呈现出一个验证问答:
陆全告诉雷锋网,这种验证模式利用阿里电商平台海量信息做文本生成,其实包含了三重防护体系:
1)认知问答:给出一段文本,基于对文本的理解和推理回答问题,考察语言认知能力。
2)图像对抗:文本问题以图片的形式展现,通过注入对抗样本,影响主流OCR识别算法的检测效果;
3)行为检测:回答问题需要通过拖拽的方式完成,基于行为的大数据分析以及端上的安全防控,进行人机区分;
通过这三个方式,对于某些风险较高的账户进行认证,可以以95%的概率识别出“非我族类”。
这样做主要还是为了提供攻击方的门槛。因为淘宝等电商平台可以日均产生千万级的高质量评论,题库规模足够大,想通过扒题库的方式破击验证系统几乎不可能,另外基于自有数据也导致一般的算法模型很难适用。
AI 通过对商品评论做属性级的情感分析,提炼出问答知识点,例如对商品某一属性的评价是什么,评价是正面还是负面的,这样j基于提炼的结构化知识点,生成自然语言的问答,增加了问题的多样性。
一句话,机器要想看懂并明白它,很难。
另一个能提升“安全 AI ”认知能力的是“风险分析”,也就是说,靠 AI 算法从海量信息中找到这些问题的答案:
1. 谁在对我虎视眈眈?他们从哪里来,到哪里去,要干什么?堪比回答人生的终极疑问。
2. 以前那些看上去“没有什么背景”的攻击到底是谁干的?张三家大白鹅丢了和五百公里外的李四家有什么潜在关系?XX团伙发起的攻击与一年前发起的那一波攻击有没有关联?
3. 现在主流威胁有哪些?我未来还会受到哪些黑灰产攻击?
“安全AI”背后的阿里安全团队自己上还不够,以防万一,要请来大牛坐镇——安全AI的“风险分析”与达摩院有诸多合作,达摩院在自然语言处理技术上很强,在机器翻译、多人对话方面都取得了挺多公开数据级测试世界第一。
“我们跟它进行深度合作,做NLP的处理”。陆全说。
靠着自己争气和“背后有人”,60%的黑灰产风险被机器自动化发现并首次最先报警,“安全AI”发掘了黑灰产关系于线上风控,并开启“大喇叭”推广到全域经济体。
当然,判断“用户”是机器人还是真实人类,发掘黑灰产情况还不够,一个优秀的大脑还要跟踪风险账户的行为,由己及彼,具有超强的推理能力。
“安全AI”决策层的核心技术包括深度学习和强化学习两块,用来解决现实中的复杂决策问题。它决定了系统该如何动作,如何更合理有效地作出最佳应对。例如,当面临商家实时博弈、信息内容的变异,以及黑产的恶意攻击时,在全局视角下做出更有利的决策。
比如,如果它发现了一个可疑份子,一次可疑行为,要像一个深谋远虑的军师一样善于布局,“拔出萝卜带出泥”,清楚地构建一个整体线索图,更具全局观。
“帐号跟帐号之间是有关联的,它的关联可能通过共同买同样的商品,或者共同评价同样的商品,或者互相评价这些关联,我们做风控就是用全局的信息才能够挖掘到后面的团伙信息。”陆全说。
如果今天有一群穿着黑衣服的人来“打家劫舍”,明天就算这群人穿了绿衣服,戴了口罩,AI 也能“认出”他们。
可能出乎你意料的是,“安全AI”大脑不仅要有发现威胁的各种感知、认知、决策能力,还要有自卫的能力——保护层,保护自己和系统不受到伤害。
这里要提到三项有意思的技术:源码保护、自动化漏洞挖掘及对抗样本训练。
为了保证自己辛辛苦苦做出的各类 AI 引擎不被坏人轻易复制、利用和对抗,阿里的安全研究人员还要“抱”住自己的 AI 模型。
但是,现在有越来越多的机器学习的模型代码都会布到端上,或者是布到不可控的地方。为了保护自己的源码,他们只好选择把编译好的编译码放到端上,而不是把源码放上面,这样人即使可以读懂源码,但读不懂编译码,陆全等人把“安全AI”的核心模型都变成了一个只有阿里的知识引擎才能看懂的机器。
此刻,我想起了明星闺蜜才知道的一个暗号。
A:今天我去做头发。
B:懂,如果你老公问我的话。
陆全还提到,安全 AI 在很多应用上面归根结底变成了代码,有代码就会有漏洞。
“可怕的是,我们现在发现有一个问题在 AI 界是比较严重的。大家模型和框架都有非常强的同质性,你用的、我用的、他用的都差不多,就好像大家基本上基因构造都很类似。以后万一有一种病毒或者有一种攻击方式出来,基本上所有的人都没有免疫力,都很容易中招。”
所以,“安全AI”要对自身和阿里本身的业务系统进行自动化的漏洞挖掘,未雨绸缪,找到更多缺陷,及早预防。
上述都是从外部治理 AI 系统,但是提升 AI 模型本身对付恶意攻击的适应能力,还要靠对抗训练样本的方式。
“事先产生一些比较接近于黑客或者黑灰产容易攻击的样本,把样本加到训练集里面,让模型在训练产生的时候,就已经具备抵抗一些变异和攻击的能力。”
不知为何,陆全的阐释让我想到了大神周伯通的双手互搏。
最强高手的目标,永远在于如何战胜自己。
[陆全]
雷锋网。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。