专访NLP前辈黄昌宁先生，每一阶段都是常人难以企及的辉煌

本文作者： camel

2018-03-31 23:10

导语：大师风范

黄昌宁先生，作为我国自然语言处理领域的先行者之一，在过去近四十年的时间里为我国自然语言处理的发展做出了杰出的贡献。2017 年 11 月，中国计算机学会（CCF）在第六届自然语言处理及中文计算会议（NLPCC 2017）上将首届「CCF中文信息技术专委会杰出贡献奖」授予黄昌宁先生。
近日，雷锋网有幸去黄昌宁先生家中拜访。黄先生今年已 81 岁高龄，但仍然精神抖擞，思维十分敏捷；言谈平和近人，处处透出大师风范。在雷锋网拜访黄先生的两个多小时里，黄先生非常和蔼、健谈，提出了许多极有价值的观点和建议。

粗略来说，黄昌宁先生的人生大致可以分为两段：45 岁前和 45 岁后。

1937 年出生于广东的黄昌宁，在 1955 年以优异的成绩考入清华大学电机系。1961 年毕业后留校任教。

文革期间，在大学里无论是教学还是科研工作都无法正常地进行下去。随着「四人帮」的倒台，国内研究百废待兴。在 70 年代，黄昌宁主编了大学教材《晶体管电路》，一跃成为清华极为知名的教授，该书在国内发行量逾百万册。

1977 年清华大学设立计算机系，为了弥补与国际研究的差距，学校组织多名教授在全国范围内进行学科调查。黄昌宁当时根据调查结果认为，一定要跟踪世界科学研究的先进方向，设立人工智能专业。随后他参与了《人工智能原理》及《LISP 语言》的翻译并开设了相关课程，填补了当时国内的空白，引起了很大的反响。黄昌宁也由此开始接触自然语言处理。

上世纪 80 年代世界银行给中国政府提供了一批贷款，资助一部分研究学者出国进修，1982 年 45 岁的黄昌宁由此得以走出国门。

黄昌宁在耶鲁大学进行为期一年的访问。在此期间黄昌宁对当时的学界巨擘美国人工智能学会会长、耶鲁大学计算机系系主任罗杰·尚克的工作比较感兴趣，罗杰·尚克是「故事脚本多语言机器翻译系统」的创始人，他主张跳过句法分析直接进入文本的语义理解和处理，这对句法比较松散的汉语 NLP 似乎更有吸引力。但是黄昌宁很快就发现了尚克的问题，跳过句法直接理解语义相当于舍去形式而直抵内容，他认为这在实践中很难实现。这一观察后来也被证实是正确的，尚克本人不久也离开耶鲁去了美国西北大学从事学习研究。

1983 年学习结束后，黄昌宁按时返回国内，从此就再也没有闲下来。这可以分为两个阶段：清华执教阶段和受聘微软阶段。

80 年代初，在国内自然语言处理的研究还几乎是个空白，黄昌宁不仅把这门学科的思想带进了中国，还极大地促进了 NLP 在国内的发展。这方面的工作以 1993 年发表的论文「关于处理大规模真实文本的谈话」为代表。这是国内首篇公开主张大数据真实文本处理的一次宣言。

其次，黄昌宁还同时挑起"七五」国家攻关项目「自然语言理解和人机接口」、国防预研项目「军事文本理解技术」等。

1998 年秋，黄昌宁应香港大学之邀，进行了为期半年的讲学。当时微软中国研究院刚刚成立，院长李开复博士在香港约见了黄昌宁，动员他加盟微软中国研究院。

1999 年 4 月，62 岁的黄昌宁先生在清华执教近 40 年荣誉退休，但却愈发地老当益壮，开启了另一段辉煌。退休后的他随即接受了微软中国研究院的聘请，成为当时研究院中年龄最大的研究员（当时李开复院长年龄最大，还不到 40 岁）。在黄昌宁的带领下微软中国研究院成立了自然语言计算组，其研究则几乎涉及当时 NLP 的方方面面，如中文分词、句法分析、机器翻译、问答系统等等，在国内外很快就达到了顶尖水平。

在论文方面，黄昌宁所带领的团队可谓是中国 NLP 研究走向国际的先锋。2000 年 ACL 在中国香港举办，当时大会总共接收 70 篇论文，微软亚洲研究院有 6 篇论文入选，其中 4 篇出自黄昌宁所带领的团队。这也是国内较早几篇发表在国际顶会中的论文。当然这些只是他们工作的冰山一角，其他例如随后的 2001 年他们在影响因子不下于 ACL 的《Computational Linguistics & Chinese Language Processing》期刊上又连续发表了 5 篇论文。

随着年龄的增长，黄昌宁先生因眼疾及高度近视视力严重衰退，随后渐渐退出微软的管理工作，交由周明博士主管，他担任顾问。

黄昌宁先生对在微软期间的工作总结道：「从成果上来讲，在微软的几年时间里，比我在清华 40 年做的成果还要大得多。」

「赋闲」在家的黄先生并没有过一种遛鸟养花的闲逸生活，他仍然在时刻关注着前沿的研究，并思考如何才能使我国 NLP 的研究水平更上一层楼。

通过与黄昌宁先生的对话，雷锋网得以了解其中的两个侧面：一，他高度肯定评测对 NLP 发展的重要性，认为评测之于NLP正如显微镜之于生物医学；二，中国 NLP 研究若想进入世界先进水平，需要做好顶层设计的工作。

细看黄昌宁先生近六十年的研究生涯，从风华年少到耄耋之年，每一阶段都是一次常人难以企及的辉煌。2017 年 11 月 10 日，基于黄昌宁先生为我国自然语言处理的研究做出的贡献，中国计算机学会在第六届自然语言处理及中文计算会议（NLPCC 2017）上将首届「CCF中文信息技术专委会杰出贡献奖」授予黄昌宁先生。

专访NLP前辈黄昌宁先生，每一阶段都是常人难以企及的辉煌

黄昌宁教授（中）获杰出贡献奖

以下为雷锋网与黄先生部分对话精简。

一、观点

问：从整个科学领域的角度来考虑，您觉得自然语言研究的意义是什么？

黄昌宁：有人说自然语言处理是人工智能皇冠上的明珠，大概是因为语言是人类区别于其他高等动物的重要标志，是人类智能的集中体现，既然是这样，把 NLP 的研究看成是科学上的重要问题也就不奇怪了。自然语言研究的意义就是让计算机能理解或处理自然语言，也就是让计算机明白无误的掌握人类的最高智慧。

问：近几年，中国在NLP领域有了快速的发展，已经达到世界前列的水平。而您经历了中国 NLP 近四十年从无到有，从落后到前列的变化，您如何看待这个发展呢？

黄昌宁：我觉得国内自然语言处理和人工智能研究的现状，是随着改革开放的进展而得到逐步改善的，是一个渐进的过程。

特别是最近几年，有很大的变化，这主要是取决于两个方面：一个是政府给的科研资助有了很大的提高；另外一个是研究人员的数量大幅度的增加。现在国内从事自然语言处理的研究者要比日本、韩国等国家多得多。所以文章的数量超过了别人也是理所当然的。但是我一直觉得，虽然文章的数量是多了，但我们引领研究导向的论文和成果依然很少。

问：在 NLP 的研究和应用领域，您觉得从国家层次上，我国需要如何进一步布局以达到国际顶尖水平（甚⾄至引领世界 NLP 研究的发展）？

黄昌宁：政府干预科学研究的计划是一柄双刃剑，做得好有可能在一个时期内提高国家的科学研究水平，做得不好也可能是瞎指挥，不是帮忙而是添乱。

这样的例子在国内也不是没有的，虽然规划制定者咨询过一线研究人员，但毕竟他本人不是一线科研人员，所以他不可能全程跟踪某一个项目的研究活动。从国际上看，人工智能领域出现过几次令世人惊诧的成果，比如 1997 年 IBM 深蓝战胜世界国际象棋冠军卡斯帕罗夫；2011 年 2 月 IBM 的深度问答系统「沃森」，在美国 Jeopardy 电视竞答节目上一举打败该节目的两位前冠军；2016 年 3 月 Google 的 Alpha GO 战胜人类九段围棋选手等。这些人工智能的项目都不是政府规划出来的，而是世界顶尖研究团队创造出来的。

问：阅读您之前发表的文章发现，您特别强调在 NLP 发展中评测的重要性。那么您是如何看待评测的呢？

黄昌宁：我一直认为，计算语言学是一门实证科学，公开和可重复的评测，决定了这门学科的健康发展。评测对于 NLP 研究人员来说，就像生物医学的显微镜、天文学的望远镜一样，这些观察工具的优劣，直接决定了科学研究成果的深浅。

举例来说 2003 年到 2006 年间，中文自动分词技术经历了一次重大突破，突破的原因在于对中文分词评测观念的重大创新。以往国内认为中文分词是没有标准答案的，比如「北京西站」可以切分成一个词，也可以切分成「北京西站」两个词，甚至可以切分成「北京西站」三个词，评测时如果评委中的多数认为这三种切法都是合理的，那么这三种切法都是对的。但 ACL SIGHAN 专业委员会组织的中文分词评测 Bakeoff-2003，认为上述三种切分结果应视作三种不同的分词规范。不同的分词规范应提供不同的训练和测试语料，这样分词结果就有了唯一的标准答案，即所谓的「金本位」（gold stand），因此评测标准有了含金量的意味。

在此基础上 Bakeoff-2003 采用了召回率 R、精确率 P 和两者的调和平均值 F 等三项指标，而不像国内只有分词正确率一项指标。何况由于国内原来的分词测试语料没有标准答案，所以这个正确率的定义是含糊不清的。进而 Bakeoff-2003 还分别设立了表内词和未登录词的两个召回率指标，在这两项指标的指引下我得出未登录词对分词精度失落的影响比表内词的歧义切分所引起的精度失落高 5 到 10 倍。这个结论回答了分词界一个长期悬而未决的难题，根据这个认识不难得出以下的推论：能使未登录词的召回率显著提升的模型和算法一定是最佳的分词方法。果然，到了 Bakeoff-2005 分词技术就发生了巨大的变化，推翻了以前以词为基础的主流的分词方法，出现了以字为基础的全新的分词方法。到了 Bakeoff-2006 年就没有人再做基于词的分词系统了。

问：测试方法如此重要，是否可以说这是科学研究的顶层设计呢？

黄昌宁：您提的这个问题很好，科学研究的顶层设计确实包含了评测方法，但还包括其他的重要问题：如项目的宗旨和定义、基础理论和方法、项目推进的路线图和最终成果的鉴定等等。

这些顶层设计美国做的最好，而国内却很少。因为这些工作不是个别团队的经费和人力能轻易做到的。周明说我们的 NLP 研究要在 2020 年达到世界先进水平，那么顶层设计就一定要做。你想，如果我们没有顶层设计的话，论文数量再多，原创性和引用率也赶不上人家。

美国国防部 DARPA 设立项目经理人的做法值得我们学习。他们通常会设定一些项目，如信息检索、问答系统、话题识别和追踪等，并为每个项目设立一个项目经理，其人选不是来自政府机关，而是从大学或科研院所中聘请的领域专家。项目经理负责完成项目的顶层设计，包括项目宗旨、资料制备、评测方法、项目推进路线图、评测会议和学术交流等。我希望中国政府也可以参照这个经验来推进我国科研项目的顶层设计。

二、研究

问：您怎么来看待您过去从事过的研究呢？

黄昌宁：我觉得，在自己的研究领域，一个人一辈子未必能参与一次技术上的重大突破。如前所述，我很幸运有机会参与了 2003-2006 年中文自动分词的那次大突破。不过我认为，无论您是否能亲历科研上的重大突破，只要恪守正确的科学方法一步一步往前探索，不急不燥，就一定可以积小步而成大步。即使您的心得微不足道，那也是对科学研究的一份贡献。

问：那么，老师您对⾃⼰做出的哪项工作最为满意？

黄昌宁：我想最让我满意的是 1993 年在《语言文字应用》杂志第 2 期上发表「关于处理大规模真实文本的谈话」的论文。我的这篇文章是国内第一篇公开主张大数据真实文本处理的宣言，这也是我本人终身坚持的学术主张和方法论。自然语言处理在这之前也有一些著名的演示系统，但这些系统都只能在有限的情景下进行简单的人机对话，不能适应社会和企业界对自然语言处理技术的大规模需求。这就是第一代人工智能技术的困境，要突破这个困境就要从第一代走向第二代。

其次是 1999 年我到微软以后从事中文分词的研究，包括编写分词规范、标注分词语料和研制高精度的分词系统。在此期间我发现中文分词的可计算定义既不是单纯的标注规范也不是分词规范+词表，而应该是大规模的分词标注语料，从中也认识到计算机使用的语言知识在形式上和颗粒度上都不同于传统的人类语言知识。这个认识在最近两年的大数据、深度学习的计算模型上再次得到验证。