0
本文作者: 刘芳平 | 2018-04-28 20:34 | 专题:AutoML 祛魅 |
这几年从百度出来创业的人工智能科学家不少,夏粉就是其中一位。去年 6 月,他创立智铀科技,公司专注开发自动化机器学习平台(AutoML),公司产品名为 Ebrain,至今已获得两轮融资。
AutoML 的目的是实现机器学习自动化建模,通俗一些来说,是用 AI 创造 AI。当然,往细来讲它并非能将整个人工智能应用的过程自动化,而更多是降低这项技术的使用门槛,从而让更多的人也能用上。在接受雷锋网专访的过程中,夏粉对此进行了详细解读。
作为技术人创业者,夏粉也向雷锋网表达了在向企业家身份转变的过程中所遇到的挑战,他表示,
创业跟科学问题不一样,科学问题是边界很清晰、非零即一的。但公司创业因素很多,有的时候它不见得用科学的方法能解决,可能需要一些艺术的、模糊处理的方式。
夏粉博士,毕业于中科院自动化所,师从机器学习泰斗王珏老师;智铀科技公司创始人兼 CEO,专注于自动化机器学习平台产品。
15+年机器学习领域的研究和应用经验,曾在百度任资深科学家,负责百度超大规模机器学习团队。研发超大规模离散稀疏架构自动化机器学习平台(Pulsar),覆盖公司 80 % 以上业务线,包括百度最核心的商业变现系统凤巢、金融、糯米等。在公司内部机器学习平台中用户数排名第一。
机器学习顶级会议杂志 JMLR,ICML,NIPS 等发表多篇文章。
“技术人是有情怀的,他们希望技术研发得到认可,开发出世界一流的技术,然后希望它的影响力尽可能大。”夏粉向雷锋网这样答道。
回顾之前读机器学习博士专业的时候,夏粉表示当时技术得到认可的一个表现就是在顶级会议上发表论文。后来他发现,技术还需要落地,需要影响别人,于是加入了百度,在百度最大的广告业务线网盟,他发展出了一套 AutoML 技术。
但在大企业里面,每个人都是一颗螺丝钉,其工作目标被一个框所限定。夏粉的这个框就是网盟的点击预估系统的 CTR 不停地提升。但他希望有一个更大的平台,于是来到了百度研究院大数据实验室(BDL),站在研究院的基础上,夏粉推出了业界第一个基于万亿规模的深度学习网络的商用在线学习系统以及全自动机器学习平台 Pulsar。Pulsar 被公司各业务线广泛使用,平台覆盖公司绝大部分业务线,包括凤巢、网盟、金融和糯米等,并受到一致好评。
“在内部平台里面,我们得分第一,两年时间被 30 条业务线应用。”夏粉告诉雷锋网。
在这个过程中,他发现自己的影响力还可以进一步扩大,于是想到跳出百度,将技术应用到各行各业。
除了作为技术人的情怀,国家“大众创业,万众创新”的政策也鼓舞了夏粉。而且,他告诉雷锋网,当时一些资本把钱放到他眼前了,“一些资本会经常问你要不要创业,你创业了,我的资金放在那,等着你出来创业。”
如此天时地利人和,最终促成了夏粉迈出创业步伐。
对于前东家,他表示非常感谢:
百度是一个对技术非常重视公司,技术人员在那边地位不一样。百度给我很大的场景,一个技术人员研究动力技术再厉害,如果没有给他场景,没有实际的东西给他去加工,积累不了经验,他也没法发现问题来提升自己的技术。百度能提供很多数据和算力方面的集体资源,然后具有非常大的问题规模,你可以在这里面得到很好的实践锻炼。
技术的进步终究要落地到实际的经济生产中去,这也是近几年人工智能大热之后,AI+成为各行业乃至国家大力推动的事情。吴恩达说人工智能是未来的水和电,意味着它需要有足够低的门槛,让各行各业的人都能很容易地使用。
但俗话说隔行如隔山,想要把一项计算机科学技术深度整合到另一个行业中去,并不是一件容易的事情。解决这个问题有几个方向,一是培养更多的人工智能专家,并让他们学习不同行业的专业知识,这方面许多公司、政府和高校都在努力,包括雷锋网旗下的 AI 慕课学院。
然而人工智能人才培养的周期很长,AI 人才稀缺的问题长期困扰着行业。根据教育部印发的《高等学校人工智能创新行动计划》,中国人工智能人才缺口超过 500 万,如此庞大的需求,短时间内肯定无法得到满足。
而另一个方向是降低机器学习的门槛,这正是夏粉的创业团队在做的事情。智轴科技的产品 Ebrain 是一个机器学习自动化建模平台。其作用就是用 AI 替代机器学习建模过程中需要大量人工操作的部分,从而让一般的企业技术人员也能轻易使用上机器学习,不需要自己精通机器学习。
关于 Ebrain,雷锋网针对一些关键问题与夏粉进行了交流:
雷锋网:什么样的市场痛点促使你选择做 AutoML 这个方向?
夏粉:从专业的角度来说,是目睹了工程师辛苦调参的过程,特别累,我觉得一定要把工程师从这种重复劳动中解放出来(高端人才应该致力于前瞻性研究)。
从企业的角度来说,是提升了他的效率,节省了他的研发成本和人力成本。
对业务人员来说,是从不可能变为了可能(致力于做好工具化,让非专业人士获得AI能力)。
雷锋网:AutoML 的优势是什么,其解决的关键问题是什么?
夏粉:自动化模型参数调整,节省工作量,降低门槛;
自动化特征抽取、变形和组合,找到有效的影响结果的特征;
自动化模型结构设计,比如神经网络多少层,每一层之间的关系。
雷锋网:AutoML 的局限又在哪里?
夏粉:如果做到场景通用化,可能会稍微多消耗一些计算资源,但总是比人便宜。
雷锋网:你怎么看待现在国内做 AutoML 的竞争?
夏粉:我们做的更像Google AutoML,但是我们可以支持企业私有化部署。国内这个赛道上,智铀科技是第一家。
雷锋网:机器学习的目标仍然是解决具体问题,而要将它应用到各行各业就需要对各行各业的问题有深刻的理解,一般做机器学习定制化服务的公司,都会同时配备领域内的专业人士来帮助了解问题,并制定相应的解决方案,开发相应的ML模型进行解决,AutoML 目前的水平有多大程度可以代替这个过程,有哪些是很难代替的?
夏粉:和业务相关的部分,很难用自动化机器学习来取代,需要业务人员的参与,比如数字化,数据采集,界定问题,设定目标;当然机器学习科学家是可以通过短期学习掌握这些问题。
特征抽取----建模-----优化,这些过程是可以自动化。
雷锋网:现阶段的 AutoML 可以高效解决模型架构设计、超参数选择这样的模型优化方面的问题。商用解决方案里还有其它的需求,比如前端的数据收集、数据预处理以及模型上线后的长期维护和演进,这些需求你们有针对性技术吗?有长远规划吗?
夏粉:智铀科技目前可以在 预处理、特征抽取、建模、优化这些方面通过自动化的方式帮助到企业。将来在ETL,在线模型演进也要做到产品中去。
雷锋网:目前有哪些应用案例,能否详细介绍一个,合作中,智铀科技提供什么,企业需要做什么,最终达到了怎样的效果?
夏粉:以内容推荐应用为例,医药公司会通过微信、邮件等方式为医生推送一些内容(即文章),推送后医生会对文章有阅读或点赞行为。现在需要根据医生的特征和历史阅读、点赞记录预测其感兴趣的内容,从而进行内容的精准推荐。
常规的做法是:对医生和文本提取大量特征,进行特征选择和变换,选择合适算法和对应的超参数,训练模型。通过在验证集上效果,挑选最优的特征、算法和超参数。所有的选择过程由人工完成,耗费大量人力和计算资源。
对此,智铀在文本结构化处理的基础上,利用云计算提供的大量计算能力,通过Ebrain在很短的时间内自动构建客户兴趣模型,并提供内容推荐核心服务能力。最终,根据医生的兴趣进行信息推荐,按照行业标准预估客户内容访问量提升50%以上。
雷锋网:Ebrain 对人工智能的发展意味着什么吗?
夏粉:降低机器学习门槛;让普通工程师,业务人员也可以方便使用机器学习;人人都可以成为数据科学家。
雷锋网:目前大型云服务厂商都提供人工智能云服务,提供很强的算力和软件服务,企业可以在上面构建和训练模型,作为并非大型云服务商,Ebrain 在部署上是否会遇到问题,比如算力、数据、接口等方面?
夏粉:产品销售模式:私有部署+云上SAAS服务,大客户有定制解决方案。都是标准的接口,不会有什么问题。
雷锋网:如果大型云平台也推出 AutoML 的话,Ebrain 如何维持竞争优势?
夏粉:我们对自己的技术、算法积累比较有信心;我们是可以做私有部署的。
我们不仅仅是机器学习,而是机器学习自动化+产品化,并且只有做到自动化,机器学习才能做到产品化。自动化机器学习有很高的技术门槛,难点是“自动化”,在算法和实践上需要有很深的积累。
自动化机器学习最难的是优化问题。给你个目标函数,我需要找到一个点使目标函数最小,这就有很多研究方法,对目标函数有很多解法,可以求解。自动化机器学习是目标函数不可导,反馈机制不明确,计算复杂度高,所以要全部试一遍,成本非常高。把不可导变成可导的优化问题出来,就要求近似。报道说,人工智能打败国际象棋大师是在上世纪80年代,通过暴力搜索,每一步都评估,选取分数最好的一步,但是到围棋就不行,复杂度高搜索不出来,穷搜根本搜不出来,所以要做近似问题,把不可解问题近似成可解的问题,找目标函数,使目标函数以很大的概率覆盖每个解,同时求解的复杂度降低,我们在这一方面创新了很多算法。(人和机器都没有办法找最优解,机器范围大、效率高,所以效果比人好)以前象棋每步搜索2亿次,现在只需要做3000万次,因为做了优化。
自动化机器学习的突破最大的是算法设计突破,你要找到A问题近似B问题,比如谷歌 AutoML 是用强化学习做的,他也是穷值,穷值下面也是有一个产生概率在里面,我有几个候选,这些都有可能是最优解,我把每个最优解都放了一些概率分布在这儿,然后根据概率分布我随机抽一点,抽一点上去试,试的话反馈过来会改变这个概率的分布形式,最终概率分布形式变了,最终最有可能是最优解的概率覆盖到更大的概率。
雷锋网:目前公司的主要工作是什么?
夏粉:打磨产品。
从技术人到企业家,对夏粉来说是一个巨大的转变,也带来很多新的挑战。在他看来,做学术和做企业家有很大差别,涉及到的问题要复杂得多:
第一、做学术可能只是盯着一个问题去研究,而做企业有很多问题需要去解决,每个问题又需要不同的能力和技巧。
第二、原来解决问题可能只需要管自己,而作为企业家不一样,身后是很多人,需要对他们负责。“原来是很简单,就是做科学家做一件事情,现在要把这些人也得处理好了。”
第三、原来就学一个点,现在好多东西都要学,“我也观察了一些做的比较好的企业,其实从一开始创业,一直到企业运营都在不停的学习中。”
夏粉在管理过程中探索了一条类似机器学习的企业管理方法,包含输入、输出与中间三个部分。对于一家企业来说,输入的是资金和人力,之后经过中间的步骤,输出尽可能接近目标的结果。这里面,中间是复杂的地方。
人怎么管?钱怎么用?客户怎么维护?发展节奏怎么样的?中间就是调参过程。调参过程跟 AutoML 一样,难点是啥?原来做机器学习,导入很容易知道,但训练目标和最终目标之间有一个残差,通过残差反过来调参,AutoML 有一个问题是残差找不到,就需要你自己定义残差,然后再拟合。
做企业也是一样,确立一个使命以后,下一阶段怎么走?需要定一个子目标,而且这个目标一定要量化了,达到子目标以后,再根据目标往后面走,然后变成新的目标。
但在向企业家这个角色调整的过程中也不免遇到难处,“我觉得每一个创业的背后都是一段很辛酸的过程,即使你看到那个企业家很成功,背后可能也很多时候会偷偷地抹眼泪。”夏粉告诉雷锋网。
现在智铀是十几个人的规模,很快会到二十来人,其中一半以上是技术。夏粉表示,AI 人才稀缺的问题他们也遇到了,而他的解决途径除了努力招人,也会自己去培养人才。夏粉之前也是老师,在百度的时候培养过很多 AutoML 方向人才。
除了人才,其实还有很多,“比如说摸索方向,跟客户谈判,之前没遇到,中间都觉得困难,好歹我们一步步的就跨过来了。”夏粉说。
但这也是一个成长的过程,夏粉表示,创业是一个磨练的过程,磨练到一定程度时,心态会越来越强,在这个过程中也能看到自己的成长。
而且我现在越来越确定了,我们的公司肯定能做成。为什么?因为我们确确实实给社会创造价值,就很多企业因为有了我们,成本降低了,收益提升了。剩下就是我们怎么把事情做出来。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。