号称“中国第一家大数据安全公司”的瀚思今天 B 轮融资，它的关键词却是人工智能

本文作者：李勤

2017-07-25 14:29

导语：高瀚昭认为，人工智能的方法作为手段之一，可以将大数据抽丝剥茧，实现让安全可见、可视、可控的安全智能。

7月 25 日，号称“中国第一家大数据安全公司”瀚思科技（HanSight，以下简称瀚思）举办了 B 轮融资发布会，宣布获得1亿元人民币融资，本轮融资由国科嘉和基金和 IDG 资本领投，南京高科等 A 轮投资方继续跟投。

事实上，7月17日，在中关村软件园的瀚思公司的一个会议室中， CEO 高瀚昭和联合创始人董昕面对雷锋网等十几家媒体，已经提前宣布了融资的事，但那天，他俩提到的主要关键词却是人工智能与安全。

瀚思成立于 2014 年，该公司的创始团队认为，传统以防御为核心的安全策略已经过时，信息安全正在变成一个大数据分析问题，大规模的安全数据需要被有效地关联、分析和挖掘。

高瀚昭认为，人工智能的方法作为手段之一，可以将大数据抽丝剥茧，实现让安全可见、可知、可控的安全智能。

直白地说，以数据驱动安全的瀚思认为，要达到上述目标，需要具备三个能力：第一，要有平台搜集数据；第二，要有能力分析哪些数据可以深挖安全风险；第三，针对不同业务场景与数据，面临不同情况，基于机器学习和人工智能，能做出不同的处置方式。

所谓“数据驱动安全”，最关键的还是“安全”，也因此，雷锋网曾问过一些安全企业，你们都说要做反欺诈，要做安全，要搞数据分析，你们的数据从哪里来？

一部分人什么都要，什么都做，干脆数据也自己搞，一部分人不想陷入与以“大数据”为定位的数据公司的竞争中，或者说，这也不是他们的优势，所以选择了与数据公司合作，自己再驻扎到客户中，客户给什么数据，他们分析什么数据。

瀚思虽然号称为“大数据安全公司”，他们并不走第一条路，暂时也没有和数据公司合作，他们选择了只分析客户的数据，一来解决了搜集数据的难题，二来将火力集中在第二个和第三个能力上——即搞清楚哪些数据可以深挖安全风险，又有哪些处置方式可以应对。

不过，有意思的是，瀚思的两位核心技术主导者——创始人高瀚昭和首席科学家万晓川虽然都在著名的趋势科技公司工作十几年，曾带领团队研发了基于沙箱的检测技术和防御产品，但瀚思决绝地和沙箱技术告了别。

即使这两位核心技术人员曾在沙箱产品上于 2013 年击败了 FireEye 的同类产品，但你要允许技术者勇于否定自己过去引以为傲的成果。

董昕的原话是这样的：

“与杀毒引擎相对应的一系列安全产品，比如沙箱，FireEye 在前几年一直推崇这么一个东西，它也在一定程度上可以发现一系列的未知病毒或者恶意文件。它的做法是让这个文件在一个虚拟机中执行一下，跑起来看看有没有恶意的行为，比如修改注册表、访问一些不该访问的网站、试图记录键盘敲击等，从而判断文件到底是恶意的还是非恶意的。

但是，类似沙箱的一个重大的缺陷是，毕竟运营在虚拟机里，实际运行性能非常差，几分钟才能跑出一条结果。而我们目前用的深度学习技术，不需执行任何文件，也就是说——一个二进制文件可以直接以0和1的二进制码的形式，输入给机器，机器再自动判断到底是恶意还是不是恶意的。”

李飞飞曾在 TED 的演讲台上称，给出了 62000张猫的图片，机器能否在下一张时，判断出图片上的是不是一只猫？董昕一听，很有认同感——如果认识了 62000 个病毒、当第 62001 个文件出现时，我们能不能自动判断它是否是恶意文件？

号称“中国第一家大数据安全公司”的瀚思今天 B 轮融资，它的关键词却是人工智能

猫还是长成那样的猫，病毒却不一定是以前的病毒。

于是，他们捋出了一条思路：靠识别图像的方式来识别每个二进制的文件，在海量的 GPU 集群里实现对上千万样本的学习，形成了一整套模型，从而靠深度学习的模型来识别新的、未知的文件，“有99%的置信区间来判断它到底是不是恶意”。

然后，瀚思火速地将这套技术落地为“DeepSense Beta（深感）”引擎，并称其速度比沙箱快10倍，3 个月内不更新可以保持 90 %的检测率。

将已经训练的图像识别、人脸识别或者图像识别的模型迁移到二进制的图点后，董昕称，花了很多钱，烧了很多电，用了很长时间进行模型训练，平均训练出一个模型可能至少需要一个月甚至几个月。训练出模型后通过部署瀚思的流量检测设备，就可以实时地从企业外联的网络端口将文件抽取二进制的文件，跑到模型里进行优化检测，如果发现异常，就会告警。

随后，瀚思顺理成章地将深感引擎+流量监测设备结合成了一款万兆网络流量智能分析引擎（瀚思 NTA 网络流量分析）。

号称“中国第一家大数据安全公司”的瀚思今天 B 轮融资，它的关键词却是人工智能

这种部署代价比较低。因为不需要再额外装一系列的终端杀毒软件，也不需要装非常重的探针，只需要在客户网络侧部署流量采集设备。

将整个网络以包的形式进行截取、存储、还原，而且是长周期，比如以月计、以日计算，而不像以前只是实时地检测某一个高峰。这样的好处是，可以嵌入更复杂的机器学习和模型，从而发现更难以挖掘的一系列网络攻击或者是危险行为。

董昕对雷锋网介绍，在实际的业务场景中，NTA 在企业网络中一路“通关而上”，从 DNS 解析⼀直到 HTTP 下载⽂件内容均可实时看到，这样做的好处是，时刻有一双眼睛盯着，狠辣地发现每一条疑似威胁的线索。随时检测恶意程序和异常流量，一旦发现有什么不对劲，事后还原、检索任意时间点的传输现场。

在宣布获得 B 轮融资时，瀚思推出了新一代 HanSight Enterprise3，除了上述的各类引擎，HanSight Enterprise3 叠加了分析编程语言HAL HanSight Analysis Language ，即提供用户一个编程工具，通过脚本、交互的分析方式直接进行分析引擎的操作，且开始逐步支撑自然语言处理。

大概就是一个这样的场景：