0
雷锋网 AI 科技评论按,2018 年年底,在 2018 AI Challenger「英中文本机器翻译」赛道上,金山 AI Lab 以极大的比分优势一举夺冠。这对成立不到两年的金山 AI Lab 来说,意义重大。它不仅是对团队此前几个月努力的认可,也证明了金山在机器翻译领域的技术优势。
作为一家低调的公司,鲜少见到外界对金山 AI Lab 的报导。近日,雷锋网采访了金山 AI Lab 实验室主任李长亮博士,就 AI Lab 的研究工作和发展进行了探讨。
初见李博士,是 18 年年底在金山的一次媒体交流会上。当时,李博士戴着眼镜,讲话时温和而有耐心,身上散发着浓浓的学术气质,给雷锋网留下了深刻的印象。本次采访再见李博士,在一个多小时的交流过程中,雷锋网被李博士渊博的学识、对科研的热爱深深折服。
金山集团AI Lab实验室主任李长亮
李长亮,现任金山集团 AI Lab 实验室主任,毕业于中国科学院自动化研究所,从事人工智能与自然语言处理研究,发表国际会议论文二十余篇,申请国家发明专利二十余项,主持多项重大课题,多次在国际竞赛中获得冠军,先后入选中文信息学会青年工作委员会委员、语言与知识计算专业委员会委员、社会媒体处理专业委员会委员、人工智能学会自然语言理解专业委员会委员等等。
顺应时代大势,成立 AI Lab
2017 年 5 月,顺应国家大势和企业发展的需求,金山集团成立 AI Lab,由金山副总裁姚冬直接分管。
AI Lab 的定位是辅助金山集团的四个子公司——金山办公、西山居、猎豹移动和金山云进行业务上的落地。据李博士透露,AI Lab 主要对金山办公 WPS 提供技术上的辅助支持,接下来,团队还会和金山云进行一些深度合作。
目前,金山 AI Lab 主攻 NLP 赛道,涵盖图像、文本、语音三大方向,主要研究内容分为知识图谱、机器翻译、内容推荐和智能校对等。研究项目主要分为两类,一类是专注于落地的项目,如机器翻译、智能校对等;另一类是专注于基础服务的项目,例如知识图谱,可以对这些直接落地的项目提供长期的辅助研究。
成立一年多以来,团队硕果累累,在多个研究方向上都取得了很大的突破,如知识图谱、机器翻译等。在知识图谱领域,2018 年金山 AI Lab 支援 WPS 智能公文写作项目,构建了国内第一个党政知识图谱。但进展最大的要数机器翻译领域。过去一年,团队在机器翻译技术方面创新出层次注意力机制、高斯搜索等独特算法,并在工程细节、特征提取等方面积累了丰富的经验。
团队还有很多新布局的研究方向,阅读理解、智能文档、内容推荐、语音合成、语音识别等等。这些都是根据用户需求而提出的研究。比如语音识别和合成,虽然金山有大量的文档,但是对于某些特殊的群体(如老人)或者在特殊的环境(如晚上睡觉前)下,有很多用户希望听到文档的内容而不是用眼睛去看。语音合成技术也是用在文档上,可以选择成熟男声、优美女声童声或者方言等,满足不同用户的需求。
AI Lab 最核心的优势是人才和数据
作为一家成立三十多年的大公司,金山在很多方面都有着自己独特的优势。在李博士看来,金山 AI Lab 有两大核心优势。
第一个核心优势是人才。目前,金山 AI Lab 不仅有五十多位专业的 NLP 人才,还有专业的数据标注团队。近年来,随着算法的进步、硬件的发展、大数据和互联网的进步,人工智能技术迎来大爆发。经过一段时间的发展,NLP 技术证明了它落地的可能性,但人工智能尤其是 NLP 技术的发展几经起落,学术界对人才的培养还没有跟上来。目前,NLP 人才尤其短缺,人才是 AI Lab 最核心的竞争力之一。
金山 AI Lab 的第二个优势是数据。金山办公作为一家专注于文档处理的公司,在文档数据量方面拥有较大优势,每天由 WPS Office 创建编辑文档达 5 亿,累计存储文件 10PB。金山办公用户共享的海量数据对 AI Lab 研究 NLP 技术提供了绝对的优势。
作为 AI Lab 的负责人,李博士平时的工作除了科研任务以及业务上的对接之外,还要管理整个团队,负责人才的招聘和培养。谈到对人才的培养,他认为最重要的一点是,让合适的人在自己感兴趣的领域里面发挥最大的价值。基于这一理念,团队成员的工作会参考每个人的兴趣不定期进行一定程度的优化调整。
金山AI Lab团队合影
参加 2018 AI Challenger「英中文本机器翻译」比赛对团队来说是一次非常难忘的一个经历,在准备比赛的一个多月的时间里,每个人都处于战斗状态,每天废寝忘食地研究到晚上十二点以后,才会陆续有人离开公司。这个过程不仅让他们对机器翻译这个领域有了更加深刻的理解,而且整个团队的氛围得到了很好的提升,团队之间的协作更加默契。研究的过程虽然辛苦,但是也往往会发生一些趣事。比如,在模型测试过程当中,偶尔会出现一些翻译得风马牛不相及的句子,这给紧张的科研过程带来了欢乐。
金山做 NLP 严格遵守并保护用户隐私
谈到在金山做 NLP 的难点,李博士认为,目前业界的难点是共通的,如句子的理解和生成,以及最基础的分词、词性标注。但具体到公司,由于各家研究侧重点不尽相同,所以面对的难点也都是有区别的。
对金山来说,目前还存在许多技术难题需要解决。例如,最基本分词词性标注 NLP,目前对底层的技术还没有完全攻克,准确率大概才百分之九十几,还不能够达到让用户满意的准确率。除了这些技术攻关外,在应用落地的时候,也会涉及到线上部署、用户请求服务器等技术问题。
AI Lab 一直在进行技术上的优化,在机器翻译、阅读理解、知识图谱、内容推荐和智能文档等技术上的后续优化也是目前一直在改进的方向。除了在效率和准确率上进行提升外,还需要做一些领域上的突破。比如,虽然 AI Lab 在机器翻译上已经取得了不错的成果,但优化也是无止境的。对于机器翻译,在李博士看来,要做到「信达」并不难,但是要达到「雅」的境界就特别困难。用机器翻译技术处理公文和一般的文档并不难,但是如果要翻译好一些文学作品,就要达到「雅」的境界,这是非常困难的。
除了这些难点,李博士认为在金山做研究重要的一点是严格遵守并保护用户隐私。他们可以承诺的是,云文档放在金山是绝对安全的。虽然他们知道用户数据具有重大的研究价值,但是他们的原则是,绝不碰用户数据,这也是金山的底线和信仰。
目前对数据的处理方法是,所有的数据都被分解到不同的地方,存到不同的服务器上。技术人员接触到的数据都是经过拆分的,并保存在不同的地方。除此之外,他们还制定了一系列的规章制度,以确保数据的安全。用户上传的数据,任何人都不能碰。
NLP 未来可期,目前的科研环境来之不易
当下人工智能的研究异常火爆,越来越多的人加入这个领域的研究,但在李博士看来,人工智能人才尤其的 NLP 领域的人才依然十分稀缺,这个行业仍然处于高速发展期,还远远不到产生泡沫的程度。
李博士认为,NLP 是人工智能里面最难的一个领域,这是因为它涉及到人类的高等智慧。即便对于受过良好高等教育的成年人来说,在理解语言的时候也可能不能正确地表达甚至会产生歧义。除此之外,NLP 更是会涉及到复杂的文化背景,并且成长经历不同、所处环境不同的人对语言的理解和使用也是不一样的。
对于这一点,李博士给雷锋网举例说,目前,他们正在做的事情当中,有一项是根据用户给定的一张图片,生成一段文字来描述图片中的场景。这就需要经过大规模的学习做到,因为图片中的场景要描述清楚,都需要知道相关的背景。再比如对某些要求比较高的 PPT,需要配图,但是可能那个图片描述的场景在现实中并没有发生过,因此需要用人工智能理解 PPT 的文字描述,来合成所需要的图片。所有这些,都涉及到人类的高等智慧,因此如果要做到很高的准确率,是比较难的。
谈到 NLP 的未来,李博士非常乐观。他认为 NLP 技术目前还处于刚起步的阶段,正处于迅速发展期。近几年,NLP 技术才刚开始找到大规模应用,并有其它技术辅助支持,所以接下来的五到十年将是 NLP 的黄金发展期。
随着科技的发展和全球商业、工业的发展,目前优秀的成果不仅会出现的企业,也会出现在高校。目前,越来越多的学者从学术界投身到工业界。李博士认为目前学术界与工业界的研究处于齐头并进的状态,很多优秀的框架都是来自于工业界。去学术界或者工业界只是个人选择,为社会培养人才也是高校的责任之一。相比于学校,企业的项目和社会结合更加紧密。
而当前的科研环境难能可贵,它是很多人经过多年的努力、沉淀和积累发展起来的,这个环境需要所有人共同珍惜和维护。目前我们国家的现状是,如果有哪个行业或者技术一旦变得火爆,资本和媒体就会蜂拥而至。然而,这些外部力量可能不会尊重技术,甚至会使整个行业变得浮夸,带来不好的影响。作为一个认真做科研的人,对于这种情况,李博士表示了他的担忧。他希望大家能够能够珍惜现在的发展环境。
一个多小时的采访就此结束,在采访的过程中,可以感受到李博士对科研是真心地热爱。未来,金山 AILab 会带给我们怎样的惊喜?让我们拭目以待。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。