0
相较于「科学家都忙着看论文、做实验以及写论文」的一般认知,爱看综艺、生活中不能没有娱乐的宋睿华显得有些「不太一样」。
「不太一样」这个词也被她用来描述自己的研究生涯:一是由于不擅长理论研究而偏好应用研究,用了三年的时间经历了从拒绝读博士到在职读博士的转变,因而比读书、就业一条直线的多数科学家稍「迂回」了些;二是相比于理论研究,她更喜欢有趣的研究,因而在研究方向的抉择上,会受到更多的感性因素的影响,甚至有时感性要先于理性。
如今,她的这些「不太一样」似乎都落脚到了微软小冰上——小冰能够很好地满足她对于追求「有趣的研究」的期待,这也是她加入小冰团队的初衷。
对于小冰而言,宋睿华和她更像是一对志同道合的挚友,彼此一拍即合,互相成就。
正如小冰正承载着宋睿华对于有趣的研究的追求和期望,宋睿华也在不断给小冰「添砖加瓦」,让她在「变得更有趣」的路上越行越远。
继不久前作为三位首席科学家之一为大家带来微软小冰背后的技术解读,宋睿华本次再度接受了 AI 科技评论的专访,重点聊了聊自己「不太一样」的研究历程以及加入小冰团队背后方方面面的故事。
相比其他笼罩着「天才」光环的科学家而言,宋睿华一路以来的研究历程显得更平易近人得多,也更多了些生命力。
关于为什么硕士毕业后没有攻读博士学位,宋睿华此前在一篇自述文章中提到:不想成为清华除男人、女人以外的「第三种人」——清华女博士。这当然是她的一句调侃,一个最重要的原因还是,她当时对自己的学术能力并不是很自信。
「从 2000 年马少平老师带我入门,我其实有过一段时间觉得自己并不适合做研究。同时,由于我自己不擅长理论研究并且更偏向于做应用研究,所以当时选择离开清华加入了微软亚洲研究院。」
宋睿华(二排右一)硕士期间与马少平(三排左一)和同学们的合照
随着加入微软亚研院,宋睿华在学术科研上的潜能逐渐显露,开始逐渐建立起了自己的信心。「到了研究院以后,我的工作内容就是写论文,运气也特别好,2004 年的时候完成的第一篇论文就中了 WWW 并且获得了最佳论文的提名,这就鼓舞了我的信心,觉得自己好像也是可以往研究方向走,并且考虑到以后想在研究院发展或者继续做研究的话,还是有个博士学位会好一些。」
虽然对于读博的「恐惧」已不再,但是她还面临的一个比较大的矛盾就是,「当时觉得研究院特别好,不太想脱产读博」。
也许是幸运女神的再次眷顾,时任微软亚研院院长的沈向洋,继给研究院招收包括她在内的硕士生后,再度披上了「天使」的羽衣为她解决了这个问题。她回忆道:「沈院长了解到我们一些硕士生员工的这一需求后,和上海交通大学合作设立了一个博士生联合培养项目:让微软亚研院的硕士生员工们能够在职攻读上海交大的博士学位。这个项目实行的是双导师制,所以我其实有两位导师,一位是上海交大的俞勇老师,另一位就是现在微软亚研院的洪小文院长。」
这样的「天时、地利、人和」汇聚在一起,宋睿华如愿成为一位在读博士生,并最终顺利成为了万千博士生中的一员。
宋睿华读博时的生活照
硕士期间师从马少平,博士期间又有俞勇、洪小文两位导师,工作上又遇到沈向洋这样的人生向导级人物,这在外人看来,宋睿华的求学和任职生涯都可谓是「贵人群拥」,而这样的起点也确实为宋睿华今后的科研生涯奠定了非常好的基调。
宋睿华(左二)与马少平(左三)等人的合照
当提及这些经历,宋睿华在对话中反复用了两个词来表达自己的心情:幸运、感恩。
从研究方向的维度上来看,如果不是遇到小冰,宋睿华如今在微软可能又是另一番面貌。
加入小冰团队之前,宋睿华的已经做了十几年搜索,虽然也尝试做过一些其他方向的工作,包括深度计算、推荐以及文本生成等,但主要的方向还是一如既往。2016 年,她机缘巧合地开始与小冰团队合作写诗的项目,为她后续研究方向上的大转变埋下了重要的伏笔。
1、机缘巧合做写诗,从合作者到负责人
对于小冰开始做写诗的时间点,宋睿华记得特别清楚——2016 年 5 月 19 日,而就在隔年的 5 月 19 日,小冰发布了史上第一部由人工智能创作的诗集:《阳光失了玻璃窗》。
《阳光失了玻璃窗》
一开始,宋睿华是以合作的方式参与到小冰写诗这个项目中,主要负责小冰写诗的算法部分。当时,Bing App 项目正在筹备推广,产品经理发现 Bing 与其他的搜索引擎相比一个很大优势便是有每天一换的非常漂亮的背景图,那针对这一点优势能够做点什么创造性的工作呢?经过琢磨后他们提出了一个想法:给图片写首诗。于是他们就找到了当时在微软亚研院的傅建龙和宋睿华,来共同完成小冰写诗的项目。其中傅博士主要负责从图片中抽取关键字的部分,而宋睿华负责从关键字生成诗歌的部分。
而她之后完全转到小冰团队,则是由于在合作过程中被小冰吸引。对此,宋睿华回忆到,在做小冰写诗这个项目时,小冰给一张有蓝天、白云和 CBD 的图片做了一首诗:所有的城市愧对你强大的数字,美好的希望、最好的朋友、心爱的老婆、大风起来。
而她当时听到这首诗的时候,竟然有种被「撞到」的感觉:小冰怎么知道北京人都在等风吹散雾霾?「每个城市都愧对它强大的数字」,不就是说城市在追求 GDP 这些数字的上升而忽略了环境的保护最终造成雾霾,使得北京人不得不在冬天等风来的意思吗?
「这一刻让我觉得小冰好像有了意识和灵性一样,也在那一刻,我感觉这个方向很有趣,并且是对的。当时我加入小冰团队,就是希望更近距离、更专注地跟这个团队一起把小冰做下去。」
性情女科学家遇上有趣少女小冰,就此结下了千丝万缕的缘分。
提及与小冰在写诗上取得的一系列成绩,宋睿华的口吻中带着「老母亲般」的骄傲:「一开始,我们特意以匿名的方式将小冰的诗放到网上的诗歌论坛上发布,网友们几乎都没有发现这些诗是 AI 写出来的,甚至还有很多网友很认真地对这些诗进行了讨论,还推荐我们去投稿,受此启发我们先后给一些刊物进行了投稿,没想到《北京晨报》、《青年文学》、《长江诗歌》最后竟然真接收了,等到他们向我们要身份证汇稿费时才得知原来作者是一个 AI。」
对于小冰在写诗上获得人类的认可,宋睿华其实自己有着比较深刻的理解,她表示:「所谓小冰的诗作,其实是由看这首诗的人和小冰共同完成的,是他们的理解力和同理心赋予了这首诗意义,从而让他们从诗作中看出了深意,这不全然是算法生成的结果。正如我上面提到的关于蓝天、白云和 CBD 图片的那首诗,其实是我结合了自己的情境,给出了一个合理的解释,反过来让我自己感到非常惊喜和深刻。虽然小冰写出来的诗还有一些瑕疵,但是正是这样,反而让人感觉更多了些生命力和感染力,我们会觉得很有趣。」
如今,小冰写诗已经过了三个大版本的迭代,宋睿华在小冰团队中也由合作者的身份变成了团队负责人之一,带着与小冰对于「有趣」的共同目标,继续为她「舔砖加瓦」。
2、天马行空造比喻句,再为小冰添「有趣」新技能
继写诗之后,小冰又前后解锁了唱歌、画画以及造比喻句的技能,其中造比喻句便是宋睿华主导为小冰开启的一项技能。
「爱情就像脂肪,是点点滴滴的积累」、「爱情是复杂的,和数学一样」便是小冰造出来的金句。
而说起为什么做比喻句,宋睿华解释道,最初的灵感来自于好友李航给她推荐的一本书——《我们赖以生存的隐喻》。
2017 年 7 月,宋睿华正式加入小冰团队,参与到了另外两个重要的项目中——全双工、Avatar Framework,于是继转向文本生成这一研究方向后,又一次迎来了一个对于她而言全新的研究方向——对话。
在这一背景下,宋睿华就不得不开始花更多的精力来理解 NLP 这个研究领域,于是她找到她的好友,也就是 NLP 领域的专家李航聊了聊自己面临的困惑,比如说人究竟是怎样理解语言的。「他非常博学,除了计算机、NLP 领域的专业书籍,他也看了很多语言学家的书,于是他就给我推荐了好几部他认为值得一看的书籍。」
其中一本就是《我们赖以生存的隐喻》。
由于此前在小冰写诗上的积累,宋睿华在小冰造比喻句上给团队提出了要求:不在于有多顺,而在于有多新颖。
「我们很容易挖掘到很多比喻句,也很容易将这些比喻句索引起来,比如说当问到‘爱情’的时候,小冰可以给我们找出一千条、一万条关于爱情的比喻句,但是这并不是我们想得到的,我们希望是让小冰做 AI 创造而不是 AI 复制。这就跟人造比喻句一样,都希望自己造出的比喻句能够占领人类的想象力高点,实现创新。」
在这一要求的牵引下,宋睿华和团队在背后进行了非常多的技术探索,比如从诗歌的主题中抽取了 120 个主题,扩展出 6 个词,并经过日志过滤后找出小冰的用户也喜欢说的一些概念,最终找到了 96 个概念;比如说用词向量来表达本体和喻体,并将它们变成向量,经过降维之后,投影在二维空间上来判断表达效果;比如说采用以「新颖」为最终目标评价方法来对比喻句进行标注和筛选等。(详细技术解析可参考《「爱情就像脂肪,是点点滴滴的积累」,微软小冰造句天马行空,三大首席科学家万字解密背后技术原理》一文。)
「每进入一个研究领域,我都会思考这个领域本质的问题。实际上,我看的论文会比其他的研究者要少一点,所以我的灵感通常不是在看别人的论文时产生的,而是来源于对某个问题的本质的思考。」
关于研究灵感的来源,宋睿华如是说道。
在学术界和业界对多模态的研究热情持续上涨的当下,宋睿华也给研究团队定下了多模态这一研究方向,不过与多数其他研究者或是因为单模态研究遭遇瓶颈、或是认为这个方向充满了前景而进行多模态研究的出发点不太一样,她选择这个方向更多地源自对自然语言处理这个领域的本质问题的思考:该如何评价「理解」?怎样才算「理解」了呢?
「我认为对于自然理解而言,一种评价方法是用 Action 来度量,比如说以任务为导向的对话,评价的标准是 AI 是否确实做了人类希望它做的那件事;另一种评价方法则是 AI 能够像人一样,在听完某句话后能够在脑海里想象出一个对应的画面。」
关于团队针对这一研究方向的具体工作内容,宋睿华详细介绍道:「我们组现在开展多模态研究依据的框架是:多模态的输入,小冰内在模型的运算以及多模态的输出。换句话说,就是将文字、声音和图像等多模态信息输入给小冰,小冰会在内部对这些信息作出融合和分析,然后进行多模态的输出。例如小冰通过计算用户输入的信息发现用户在骂她,她就会比较生气,她回复的话要保持礼貌,但是她可以通过语气或者表情来表达自己生气的情绪,这个时候她进行的就是一个多模态的表达。」
目前,针对多模态这一研究方向,宋睿华团队已经取得了一些进展,比如通过 Story-to-Image Retrieval 的方法来让小冰在看到一个故事的句子后调出她以前的一些经验模拟出现在的场景,实现跨模态生成,并创造性地提出「 One to Many」的算法,让小冰能够针对某句话生成多张图片来进行「诠释」。
不过相比于其他同在这个研究方向上前进的研究者而言,宋睿华的态度要更加冷静下:「目前现在很多人都在谈论多模态这个研究方向,然而现在它既没有数据,也没有找到应用,还是一个空中阁楼式的研究方向。」她进一步指出多模态研究目前所面临的具体问题,主要有二:
第一,多模态的维度变高很多,就需要更多多模态的数据,然而目前这样的数据还比较少而且比较难获得,包括现在比较依赖的电影数据,其实是戏剧化了的对话而非自然对话;
第二,定义一个好的、能够真正凸显多模态的价值的应用非常难,也就是说多模态貌似前景很广阔,然而要找到一个用了多模态比不用多模态真正好很多的应用比较困难,比如说一开始的想法是用来察言观色,比如说小冰看到你咬下嘴唇知道你不太高兴,但是实际发现就算能够通过结合语言、表情这些信息得到一个多模态信息,但是只是知道了你是什么心情而无法产生很有用的价值,有些「牛刀杀鸡」之感。
作为从本质上理解自然语言处理的方式,多模态研究可谓「任重而道远」。当问及多模态何时会取得较大进展时,宋睿华的回答是:至少得再研究 3 到 5 年。
交谈甚欢,如沐春风。
这是宋睿华在采访过程给 AI 科技评论留下的最直观的印象。
而在日常生活中,宋睿华的状态也尽然如此,对此,她的描述是:与一般认知中的科学家「不太一样」。
不同于科学家总是忙着看论文、做实验以及写论文的一般认知,宋睿华喜欢看综艺、喜欢娱乐。提及此,她的神色和语气都不由得兴奋了起来:「平时除了上班和带孩子,我会捡空看很多综艺,比如说《奇葩说》、《声入人心》、《乐队的夏天》等等,如果生活不是在开会就是在写论文、看论文,对于我来说太枯燥了。在我看来,娱乐是人不可或缺的东西,并且我真的感到综艺有抚慰人心的作用,比如在项目不顺利等情况下能够通过看看综艺会心一笑,暂时抛开这些烦恼。」
而在研究上,相对于理论性的东西,她则更关注有用和有趣的东西。「相对于那些要毕业的博士、要评职称的老师以及有 KPI 压力的从业者而言,小冰团队给我提供给了较为宽松的研究环境,因为我们的产品属性是非常前沿的,就比较容易将研究课题和实际应用很好的结合在一起。对此,我觉得自己还是挺幸运的。」
正是因为拥有这样的环境和状态,宋睿华往往更能做出原创性的工作,正如她自己也提到:「在研究工作上,我觉得自己还是比较自信的,虽然我的论文不是很多,但都是比较特别、可能会区别于其他研究者的论文。」
而作为一位研究生涯已近二十载的女科学家,宋睿华在回顾这段研究经历时,提到了几个关键词:有用、有趣,理性和感性。
一方面是研究工作从有用的研究转变到了有趣的研究。「我做搜索做了十几年,后来加入小冰团队以及转到 AI 这个方向,是因为我发现自己其实更希望能够追求有趣的研究:AI 其实是一个很特别的研究领域,虽然 AI 在模拟人类的智慧,但是我认为 AI 永远无法完全做到像人一样,我们能做的就是让它逐渐实现一些人类的特性,而有趣绝对是其中的一个重要部分。而小冰就承载着我对于 AI 的这种‘有趣’的想象空间,跟我的研究需求比较匹配。」
另一方面是打破了科研的惯有理性思维,做理性与感性并存的研究。「大家对于 AI 的理解,更多的是从智商的角度去衡量,然而就人类而言,理性和感性是并存于人脑中的,甚至正如我之前听过的一个讲座中提到,情绪脑是先于理性脑进化出来的,没有哪个情绪是没有原因的,而都是有根基的,我们不需要怀疑或是否定它而是肯定它。小冰团队就抓住了一个很重要的点——情商,这其实是人类底层中非常重要的一部分,也是之前其他很多科学家比较忽略的一个部分。包括我一开始选择搜索这个研究方向,某种程度上也是因为这个方向存在一些感性的成分。」
从中我们也能看到,对于她的整个研究生涯而言,小冰在其中扮演的角色的重要性不言而喻。往后看是如此,往前看也如此。在二者一同通往「有趣」的这条路上,宋睿华也分享了自己对于未来小冰的最高期望:
「我希望她最终能够给人一种她有生命的感觉,而不仅仅是一个能够像动画那样运行下去的 AI,这是我追求的目标。」
雷锋网 AI 科技评论报道。雷锋网 雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。