0
本文作者: 李诗 | 2018-09-07 18:14 |
近两年,互联网巨头BAT的人工智能战略格外受人关注,百度全面押注AI以来,在2017年的下半年,百度股价三个月上涨了40%。除了BAT这三家之外,搜狗、网易等二梯队互联网大公司的AI战略也已经逐步清晰。
9月6日下午,网易有道在北京举办“2018网易有道AI开放日暨智能翻译硬件二代发布会”,向媒开发者、合作伙伴、媒体记者介绍了网易有道AI战略和AI核心能力、有道智云在教育/办公/智能硬件三大行业解决方案,同时还发布AI硬件新产品:有道翻译王2.0 Pro。
2011年,网易开始布局AI,由浙江大学计算机博士李晓燕牵头,在内部储备相关技术和团队,为游戏、邮箱、音乐、云服务和电商等业务提供AI支持。不过,当时的AI还没有因深度学习而突飞猛进,AI还无法上升到集团战略层面。
节点性的事件发生在2017年。网易AI团队升级为人工智能事业部,开始真正为集团其他业务赋能。网易也划分出AI战略的三条线:AI平台、基于计算机视觉的网易AR、语音识别和NLP方向上的语音交互业务。
网易AR在网易AI战略中占据很重要的地位,与网易游戏、电商的发展紧密联系;以翻译为核心的网易有道在语音识别、NLP方向则有天然的基因。
网易有道近年来在教育领域发展很好,AI技术的加持也进一步加快其步伐。网易有道是目前国内用户量最大的互联网教育品牌之一,服务中国互联网8亿用户, 有道词典用户在2018年初刚刚突破7亿大关。旗下拥有包括网易有道词典、有道精品课、有道翻译官、有道云笔记等大众教育的工具类和在线学习类产品。
2018年4月17日,网易有道宣布完成首次战略融资,此轮融资由慕华投资领投,君联资本参投,投后估值达11亿美元,跻身中国互联网独角兽俱乐部。至此,网易已经拥有三家独立融资的品牌:网易云音乐、网易味央、网易有道。网易有道CEO周枫告诉雷锋网,由于网易占据网易有道超过50%的股票,网易有道依然是网易旗下子公司。
网易有道作为独立子公司,网易的AI布局与有道还是有很大区别。有道的核心AI能力有:神经网络翻译、OCR识别、语音识别和语音合成,都是由有道团队独立研发。周枫告诉雷锋网:有道现在业务端定位就是A和教育两个关键战略,教育目前在有道的营收中已经占到超过一半的份额,其次是广告。有道的规模不是最大的,因此在业务上得有明确定位,结合自己的能力、资产和行业趋势,AI和教育是最适合有道的,且这两个方面也有所交叉,AI对教育能有极大提升。
此外有道做AI还有几大特点。第一个特点是,同时注重C端和B端,C端就是网易有道的词典、翻译、课程等产品,B端则是通过有道智云输出;第二个特点就是,同样重视云端和终端AI能力的发展,除了智云之外,有道也开发出了很多离线的终端AI能力,例如AR实景翻译完全依靠端侧;第三个特点,有道重视实际的场景和领域,例如现在大力发展的政企、教育、办公等三个场景。
我们先来看看这次发布会上的全新硬件——有道翻译王 2.0 Pro,这款翻译机集成了有到啊的多项AI能力。
我们先回顾一下网易有道翻译技术发展历史:
2007年12月网易上线有道词典PC版,将词典软件带入互联网时代;2008年8月推出自主研发的机器翻译引擎有道翻译,采用SMT统计翻译技术;2009年1月,网易上线有道词典手机版;2012年11月,推出有道翻译官;2013年的3月,有道词典用户突破3亿;2015年4月,有道词典用户量破了5亿,年底破7亿;2016年3月,推出有道词典海外版本U—Dictionary;2017年4月,有道神经网络翻译YNMT上线,使得过去一年网易在翻译技术上的进步,超过了过去十年的总和;2017年的10月,推出了有道的第一款智能硬件产品——有道翻译蛋,正式进入硬件领域。据介绍,翻译蛋目前销售量已经超过10万。
据雷锋网了解,2017年底,智能翻译机成为继智能音箱之后的又一大AI硬件行业热点,科大讯飞、搜狗、网易都发布了自己的翻译机产品,有几点原因:首先,神经网络翻译技术使得机器翻译水平大幅度提升,能够更好地解决线下对话问题,而过去由于手机硬件限制,我们无法在移动设备上运行深度学习模型,翻译机成为外出刚需,此外,语音合成技术也促进了实时语音翻译,更加实用。
2017年10月,网易推出有道翻译蛋,带触屏、支持27种语言在线翻译,不支持离线翻译,价格638元。今天,有道发布翻译智能硬件“有道翻译王 2.0 Pro”, 网易有道副总裁刘韧磊介绍到,翻译王可以支持中英日韩四国语言离线翻译;43种语言在线互译;7种语言离线拍照翻译;21种语言在线拍照翻译;全文收录《牛津高阶英汉双节词典(第7版)》;搭载语音助手。售价1688元。
与上一代有道翻译蛋相比,重大更新亮点在于引入自研离线翻译技术、拍照翻译功能,也能支持更多的语言。
在雷锋网看来,离线翻译确实是翻译王的一大特点。由于翻译机使用频率最高的场景应该是出境游,而出境的网络流量费用高昂,很多地方网络信号差,离线翻译成为一大刚需。但是离线翻译技术对硬件和软件要求都很高,目前,众多翻译机中,只有科大讯飞的晓译翻译机、搜狗翻译宝以及网易网易王三款硬件能支持离线翻译。
拍照翻译是第二大特点,需要基于计算机视觉的OCR识别技术,还需要较大的屏幕来显示图像,目前科大讯飞、搜狗、网易三家也都在做。据媒体测评,讯飞翻译机2.0的屏幕小拍不全,容纳信息有限,需要进行多次翻页等繁琐的操作,搜狗翻译宝3.1寸高清屏幕体验更好,网易翻译宝此次也采用了3寸的高清屏。
“翻译王”还有一个特点是加入了语音助手,以“你好,有道”唤醒,支持语音指令(可进行音量、屏幕亮度调节),语音交互问答;可询问古诗(500首中小学生常用古诗词、2万首唐诗宋词古诗集)、百科(数百万百科词条)、翻译结果、天气(可查询当天和未来2天的天气)、汇率(可查询实时汇率,交易时以银行柜台成交价为准)、计算结果。
据介绍,翻译王的语音助手的语音识别、语音合成、对话系统都是有道自研。在在智能音箱、智能家居大火的现在,把语音助手放进翻译机可以算是其最初的尝试,或许有道还会有更多的布局。
网易有道首席科学家段亦涛分享了有道AI核心能力。
有道AI技术的围绕着语言这一条主线展开,解决各个场景下的语言处理问题。第一个技术,神经网络翻译。在机器翻译这个领域,有道已经耕耘十年,经历了从SMT统计翻译模型到神经网络翻译模型的迭代,目前有道的神经网络翻译模型支持7种语音的中文互译,还支持英文与印尼、阿拉伯语等语言的互译。据陈,有道词典海外版U-Dictionary已经超越其他竞争对手,在印度市场排行第一。
在英译中和中译英的对比评测中,有道神经网络翻译的BLEU值(国际通用的衡量翻译质量的指标)超过了其他两款国外翻译引擎。(在这里网易并没指明这两家翻译引擎据雷锋网了解,谷歌和微软都比网易更推出神经网络翻译技术)。
第二个技术,基于OCR的图像翻译方案。OCR技术是指在照片里面来找到文字区域,同时把文字识别出来,这个技术可以和翻译技术一起来用,也可以作为一个独立的技术用在其他场合,比如文档的电子化。
整个链条除了OCR还有别的技术,在文字识别后,还需要对图像中的文字进行组行、组段,乃至于组篇章,从语义、语言的角度组织起来,然后再传送到翻译引擎里进行翻译。最后,还会根据原图的排版,对翻译结果进行排版和渲染。
OCR识别技术的难点在于一些复杂的场景,例如图像角度倾斜、手写识别、混合多语种等,目前有道OCR技术能处理19种语言。
第三个技术是语音识别、语言合成和对话系统。翻译王就用到了这些语音技术,能够进行汉语、英语、日语、汉语、葡萄牙等五种语言的语音识别和合成。有道也做了一些特色的项目,例如用机器学习用户上传的录音,只需十分钟的录音文件,就能合成相似的音色;以及离线语音功能。
段亦涛告诉雷锋网,网易语音团队成立才一年多,去年推出有道智云时还没有语音能力。有道成立语音团队,自己做语音的原因是因为,,虽然现在市面上可以买到语音技术,但是却买不到离线语音技术,教育、翻译这样的终端产品需要离线技术,“没有离线技术是会被别人卡脖子的”,因此有道就投入了语音这块。
在2017年,科大讯飞已经靠着语音成为市值逼近千亿的巨头,BAT也都已经布局语音技术多年,有道这个时候进入显然有些晚。但是在周枫看来,有道做AI能够立刻找到大的场景作为验证过程,比纯做toB的公司迭代周期和最后出来的产品的第一版第二版产品的品质要好很多,总体上有道是比较垂直的业务形态。
目前,神经网络翻译、OCR、语音技术等都已经通过有道智云开放给合作伙伴,在有道智云上线一年后,机器翻译服务了超过700亿字符的请求,我们OCR服务的120亿的次数请求,开发者数量达到4万。
网易高级副总裁、网易有道CEO周枫在开场致辞中指出,新十年的红利将是人工智能技术,金融科技和物联网(IoT)。谈及有道的AI布局,周枫认为智能硬件是互联网面向消费新场景的设备延伸,有道智云则是面向合作伙伴的整合优化服务,强化这两部分能够使有道AI产品矩阵的布局和扩充更为稳健。
有道AI技术总监林辉介绍了有道智云面向手机和智能硬件的解决方案。首先是机器翻译,有道智云提供拍照翻译、原图翻译、AR翻译三种功能。在智能交互方面,有道云提供语音助手和有道魔镜(智能识别物体)。
此外,以上功能也能离线处理。为了实现这个效果,有道做了,模型定点化、模型量化、在CPU方面做了指令级别的优化、自研的离线运算库、与芯片厂商合作优化,做到了识别50个字只需要50毫秒,如果字数比较多的话,每增加50个字只要增加15毫秒。
这些能力都以高级API的形式存在于有道智云上,开发者可以只花几分钟时间就将这些能力集成到自己的应用中。目前,已经有多家手机厂商与有道智云合作,使用了这些解决方案,包括OPPO,华为、小米、三星、360等。
接下来,有道AI技术总监黄瑾分享了有道智云在办公场景下的解决方案。首先是文档翻译,通过OCR技术,有道能识别文档结构、图片、表格、公式,10页4000词的英文论文PDF,1分钟内就能完成翻译。第二个是文档数字化,有道提供了一键导入图片、自动识别、文本审校、语义理解、文档终校等支持,实现中文标准印刷体99.9%识别率。
黄瑾介绍到,很多政府、企业都有将文档转化为电子版的需求,但是挑战是必须百分之百地正确,能识别特殊符号、表格等,不能出错。这一点,有道做了很多细化的工作来满足需求。
最后,有道AI技术总监林会杰分享了有道智云在教育上的解决方案。在教育场景,有道提出了三套解决方案:面向数字化内容的解决方案、面向教育过程的网络化解决方案,以及教育方法的智能化解决方案。
在数字化内容方面,有道OCR技术可以帮助纸质教育材料实现数字化,比如将试题收入电子库;在教育过程方面,有道推出了智能答题板、作业批改系统、AR拍照自动判题;在教育方法智能化方面,有道提出了英语语音跟读、口语评分、知识图谱等方案。以上方案也都可以通过有道智云接入。
AI+教育是近两年的一大风口,雷锋网也盘点了入局教育领域的大公司和创业公司。面对AI+教育领域的激烈竞争,周枫谈到:“在大型互联网公司中,网易很早就开始做教育。百度也做了很多年,但是他们做的是平台,网易是在认真扣内容。做教育多年,我们感受到,做教育和做平台、做电商不一样,我们需要去让学生获得更好的智慧教育。
很多公司看中了教育这块大蛋糕,认为家长很乐意为了教育掏钱,所以都涌进来。但是由于市场竞争是在是太激烈,教育产品的获客成本会特别高,也就不那么赚钱了,网易有道的一个优势是,我们的流量和客户就在那里,就可以省掉营销费用。”
有道以自己在教育、翻译上的积累切入AI,虽然来得晚,但是他们的发展却很快速。但是雷锋网也注意到,有道目前的AI产品,少有原创,翻译机、AI口语测评、AI批改试卷等都是行业内已经有的模式,网易如何在这些产品上破局呢?
关于这一点,周枫谈到,“回到我们4月份说的一句话,我们希望做教育领域最懂AI的公司,同样也是希望做AI公司里最懂教育的公司。所以看的是综合能力,不管是从相关的团队的规模上、投入上,以及说做相关技术的时间和数据积累等等方面,综合来看,我们还是比较有信心的。具体到某一个上面的话,有些事情可能我们做的会晚一些,但是总体上是长跑,所以我们还是挺有信心,说每一个领域都能做很好。
比如说搜题,搜题用到的是OCR技术,传统的文字识别部分是比较拼凑型的,他做的是找类似项而不是真的把里面东西认出来,那我们现在发现,我们钻研之后能够实际做真正意义的识别,这里面一个典型例子就是公式,我们发现国内几乎没有厂商做公式识别,后来找到评估之后发现根本不能用,后来我们自己解决了公式识别的问题。”
段亦涛也谈到,“语音识别是一个例子,我们语音识别起步比较晚,但是我们很快就追上来。像刚才那几个例子,包括作文批改,这里面很多东西真的要说透的话,它依赖于很多自然语音处理的积累,比如我们做作文批改项目时候,我们大量应用到我们翻译技术,这里面有翻译模型在里面。我们会在了解清楚问题本质后,把这些问题拆解成我们现有技术可以解决的方式。很多事情还是看积累是不是足够深厚,是不是对这个问题有比较好的理解。”
去年7月,网易有道第一次召开AI开发日活动,上线了“有道智云”平台,发布了OCR和神经网络翻译技术。当时,网易有道副总裁金磊向雷锋网介绍,有道技术接口每天被请求1.5亿次,其中有1亿次来自于第三方,而非有道自己的产品。基于这样的契机,有道正式上线了面向企业的“有道智云”平台,将机器翻译和 OCR 技术全部集成在平台上,供给第三方厂商使用。
今年的AI开放日活动,有道智云新增了语音识别、语音合成、对话系统等AI能力;有道智云提出了智能硬件、办公、教育三大场景解决方案;有道还发布了新一代翻译机——有道翻译王2.0 Pro。
同时,在今年的发布会我们还了解到,有道将以AI和教育作为两大关键战略,在以AI能力赋能自己的C端产品的同时,也通过有道智云将AI技术能力开放给合作伙伴。
相关文章:
专访网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么?
雷峰网原创文章,未经授权禁止转载。详情见转载须知。