0
保守估计,互联网约50%~60%的流量由网络机器人贡献,航空票务、政府公示、社保信息、公积金信息、招聘简历等,都是网络爬虫的重灾区。网络爬虫不但虚耗资源,影响正常用户体验,还容易导致信息泄露,无效营销等,企业和个人都受损。 如何建设网络机器人实时立体防控体系,成为很多企业关心的问题。
本次公开课,雷锋网宅客频道(微信公众号:letshome)邀请了邦盛科技技术总监李白分享他和他的团队如何利用数据、技术、规则、模型、产品来建设网络机器人实时识别与防护体系。
嘉宾介绍
李白,浙江邦盛科技的技术总监,主要负责实时大数据处理、分析、智能决策技术领域的研究与实践,致力将实时大数据赋能与业务场景的结合与落地实践。做为资深的业务安全专家,长期专注爬虫行为分析、识别、防护、对抗,拥有丰富的实践经验和技术积累。
以下是公开课总结文实录+视频,在不妨碍原意的表达上,雷锋网宅客频道略有删节,视频附在文末:
若想获得此次公开课完整 PPT,请关注微信公众号宅客频道(微信ID:letshome),回复“网络机器人 ”。
内容介绍
本期雷锋网硬创公开课包含但不限于以下内容:
网络机器人发展现状趋势及特点,以及给我们带来的危害分析。
大数据时代,如何利用数据、技术、规则、模型、产品技术,精准识别已拟人化的网络机器人。
以某大型票务网站威力,介绍网络机器人立体识别与防控的技术架构和运维流程。
如何从前端、后端,规则模型及运维等方面,建设网络机器人实时识别与防范体系。
今天我想和大家从以下几个方面来探讨:首先要谈到的是网络机器人也就是各种各样的爬虫所带来的风险;在其带来风险的同时,市场也会有识别和防护的需求,如何识别与防护网络爬虫?我会结合具体案例来讲解;另外还有攻防对抗过程中的一些心得体会,以及将来为保证解决方案持续有效我们应该怎么做。
这是一张过去四年的网络流量分布图,可以看到非人类也就是网络机器人在互联网上贡献的流量是持续上升的,而这些流量覆盖领域也各式各样,包括航空票务、政府公示、港口物流、招聘简历、金融理财、社交网络……
这些网络机器人所带来的风险可以简单划分为几个方面:
对票务行业来说,网络黄牛占票大行其道,企业和用户利益受损
「薅羊毛产业」兴盛,企业营销经费低效转化
商业信息泄露,陷入不正当竞争
对于系统工程师来说,暴力访问,威胁系统可用性
影响真实用户访问体验
网络资源虚耗,流量无效转化
也正因为上述场景下网络机器人肆虐,国家开始出台一系列法律法规,总体可分为两个层面:
一方面作为数据的拥有者,有责任和义务通过种种手段保障网络数据的完整性、保密性和可用性。
另一方面从数据的爬取方来说,未经授权爬取某些数据属于违法行为,比如未经授权读取用户手机通讯录超过50条记录,公司法人最高可获刑3年;未经授权读取用户公积金社保记录的超过5万条的,公司法人最高可获刑7年……
网络机器人即在互联网环境中,通过自动化的程序实现对互联网数据资源、数字资产等信息的智能化获取,现代爬虫有三大特征:自动化、智能化、拟人化,其可以细分为数据爬虫、占票工具、撞库工具、比价工具、刷单工具等。
现代爬虫会通过模拟真人发起请求,具体模拟有三种方式:报文模拟,终端模拟,行为模拟。
而随着攻防不断演进,企业对抗手段也有了变化。
具体可分为以下几个里程:
人工运维
在这个阶段,企业面临的攻击节奏不快,网站流量不大,数据吸引力没有广而告之。此时网站或企业通过人工运维,持续投入人力分析流量,根据简单规则,建立各维度访问主体的黑库,持续更新。
传统信息安全
随着流量的增加,企业自然而然开始考虑运用一些网络安全手段,比如网络防火墙、IPS、IDS、应用防火墙,但这些传统防护手段对有着明显爬虫特征的网络机器人有用,而随着爬虫愈来愈智能化、拟人化,其报文会十分接近正常人,因此这些传统安全手法效果有限。
业务层应对
在这一阶段,企业防守开始走向业务层应对,业务应用埋点逻辑,通过验证码、前端混淆、服务端检测等技术,对真人与机器人进行区分。
立体式实时识别与防护
而在目前身处的这一阶段,企业需要讲数据、技术、规则、模型、产品、服务等一系列结合起来进行对抗。
事实上,永恒的安全是不可能的。攻防不断演进是机器人防护永恒的主题,其实质是人与人,AI 与 AI 的对抗。而不管是从前端还是后端,以及风控规则模型,包括持续运维,是一个立体式的防护。
后续我们也进行了一些思考,首先数据要与场景结合,业务模式决定了模型上限。而我们需不断通过优化算法以及特征工程训练这一模型。这是一个无限逼近上限的过程,但我们在开始时就应将上限拔高。
另外,一些与业务场景结合在一起的技术也可以抽取出来进行训练,比如我们在做的一些流式大数据计算、基于规则模型的智能决策、实时的数据可视化等。
从安全合规角度更要保证内部敏感数据不外泄,外围辅助数据本地化。
问答环节:
1.目前航企遭受的爬虫攻击多来自哪里?
答:主要来自同行业的竞争,比如 A 航空公司利用爬虫占据了 B 航空公司全部低价票,而 B 公司只有高价票可售,这种情况下多数用户会选择其他公司(如 A 公司)购票。另外在提直降代后,一些黑代理或者一些资质不全的代理,也要有一定的生财之道,所以其会通过各种爬虫工具进行占票转而高价出售。同时 OTA 网站之间为了获取更多客户也会互相爬取对方价格保证自己合理定价。
2.运用多种手段识别打击网络机器人,如何提升准确率?
答:这是一个很关键的问题,我们做这件事的目的就是为了提升识别准确率。那要如何提升准确率?我认为一定要利用人工智能来优化查准率和查全率,比如我们会基于专家规则,以此为基础通过机器学习,加之以深度学习优化模型。
另外从场景来看,也可以采用多种不同级别的管控手段,除了封IP,也考虑加入动态的验证码,或者限速、限流、延迟到达等等。
3.请问是否使用了决策引擎和规则引擎?
答:是的,我们使用了决策和规则双核引擎。
视频回放地址:http://www.mooc.ai/open/course/413
若想获得此次公开课完整 PPT,请关注微信公众号宅客频道(微信ID:letshome),回复“网络机器人 ”。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。