列举从信息学竞赛(OI)或清华计算机系走出来的牛人,人们总会提到鬲融的名字。
这位来自河北唐山的青年,因2004年与楼天城、胡伟栋、栗师代表中国参加第 16 届国际信息学竞赛(IOI)、全面夺金而一举成名,保送清华后又在卧虎藏龙的计算机系留下三项至今无人打破的纪录:17科满分、学分积三年排名第一、计算机系历史最高GPA。
当你以为他只是一位竞赛强人时,他向你展示了在文化综合科上的实力;当你以为他只是“两耳不闻窗外事,一心只读圣贤书”的学霸时,他又在离开清华多年后捧回在理论研究上的拔群战绩:NIPS 2016 最佳学生论文奖、素有“诺贝尔风向标”之称的斯隆研究奖…
然而,关于鬲融的传说,大多还是集中在早期的竞赛与清华姚班的学习上。相比之下,他去普林斯顿读博、从事理论研究的经历则鲜为人知。
作为“光环学生”,鬲融的一言一行被寄予厚望。但是,在与鬲融的对话中,我们发现,这位昔日的 IOI 战神、清华本科特等奖获得者在科研上并非一帆风顺。刚入门时,他也不知道该如何做科研,也是经过一番自我觉醒,才明白了其中的门路。
与竞赛、考试相比,鬲融在科研上属于“大器晚成”:读博前三年,他在近似算法研究上探索无果,无奈转向机器学习理论研究,最后两年才发了顶会文章。到2019年凭借非凸优化的研究贡献获得斯隆研究奖时,他已是杜克大学计算机系的一名“青椒”。
2008年,鬲融从清华大学本科毕业,随后赴普林斯顿大学读博、微软研究院新英格兰分部担任博士后,2015年进入杜克大学担任教职。从姚班开始立志做理论研究,到成为机器学习理论研究方向小有名气的青年学者,鬲融用了近 10 年。
那么,鬲融离开清华后的成长历程是怎样的?今天,我们只谈鬲融与理论研究之间的故事。
作者 | 陈彩娴
在清华计算机系 4 字班(2004级)中,最出名的当数信息学竞赛圈无人不知的楼天城“楼教主”,百度曾经最年轻的 T10 级员工,后来又率先创立了国内知名的自动驾驶公司小马智行(Pony.ai)。许多人最初知道鬲融,是借楼教主的名声,因为在楼教主的一段轶事里,鬲融曾作为一个“配角”的身份出现:当时,楼教主的高中信息学竞赛教练李建江一直认为楼教主是天才型学生,心中引以为豪,每次去北京出差,只要有时间就会顺路去清华看望这位得意门生。结果到了清华,与老师、同学交流,李教练发现,自己的学生在计算机系最多只能排到第二名,因为楼教主的同班同学鬲融常年排名全年级第一。他还举例:每次夜晚 9 点去清华的计算机系宿舍,鬲融肯定在,而楼教主还在教室用功。他因此感叹,相比鬲融,楼教主是地道的勤奋型选手。在与AI科技评论的对话中,鬲融首次回应了这段传闻:“哈哈其实是因为当时我们宿舍有空调,所以就不用去教室学习,楼天城他们宿舍没有空调,他只能去教室学习。”图注:2007年,鬲融(中间)与楼天城(最左)、胡伟栋(最右)在日本参加ACM/ICPC,获得亚洲赛区冠军、全球第二名
楼天城的天赋与能力毋庸置疑,但相形之下,鬲融的实力也可见一斑。然而,在理论研究领域深耕多年后,回头再看在清华读本科时的成绩与排名,鬲融只是一笑置之,称自己不过是有一点“考试的天赋”:我就是在做一些不是特别难的题时可以做得很快,也不太会出错。考试可能比较有用,但是(这项能力)后来到了研究上面就没有什么用了。研究的题比考试难,有些人可能考试时会在一些简单的题目上卡住,但在做研究的难题时就会做得很快。
鬲融与楼教主曾经是2004年一起参加 IOI 的战友,上了清华后又曾两次组队参加编程竞赛(两岸清华编程比赛与ACM/ICPC)。但是,与业余时间还爱“玩玩竞赛题”的楼教主相比,鬲融并不“恋战”,参加完2007年ACM/ICPC后便彻底告别了竞赛圈,因为那一年,他找到了下一个人生目标:理论计算机研究。当时,鬲融刚加入姚班不久。在姚期智、陈卫、孙晓明等人的引导下,尤其是姚期智亲自讲授《理论计算机》课程,鬲融迷上了理论研究,立志走学术研究道路,将科研作为毕生之所向。但是,与竞赛、做题相比,鬲融的科研“天赋”似乎略微逊色。比如,读博前期,鬲融在近似算法(Approximation Algorithm)的研究课题上苦苦折腾了三年,也没有找到正确的方向,最后只能无奈放弃。2008年,在姚先生的建议下,鬲融去了普林斯顿大学(计算机理论研究排名全美前5)读博。普林斯顿的计算机系每年只招收大约 20 名学生。在鬲融那一届,除了他,还有 3 名中国学生被录取,包括鬲融昔日的 IOI 战友栗师(现任纽约州立大学布法罗分校计算机系副教授)。清华姚班出来的学生对研究往往有一种使命感, 比如,引领一个领域的新潮流,或解决一道历史上悬难已久的问题。年少的鬲融起初对学术研究也是这样一种想法:“世界上有那么多猜想与没解决的问题,挑一个去做就是了。”近似算法的研究历史可以追溯到18世纪中期欧拉(L.Euler)研究的骑士环游问题,目标是用近似方法在多项式时间内给出尽可能接近最优值的解,比如著名的「旅行商问题」(TSP):一个商品推销员要去若干个城市推销商品,该推销员从一个城市出发,需要经过所有城市后,回到出发地,那么,TA 应如何选择行进路线,以使总的行程最短?这个课题很吸引鬲融。但很快,他就感到“出师不利”。近似算法发展至今,亟待解决的问题是大家都知道的几个问题,比如旅行商问题、染色问题、最小分割等。鬲融的工作就是研究如何解决这些问题。但是,虽然有明确的研究方向,他却总会在各种地方卡住,导致工作无法进行下去。至于卡住的原因,鬲融坦言,他到现在也还不是很清楚:可能是对研究的课题不熟悉,也可能是思路不对,各种可能都有。我们当时想做的事情直到现在也还没有人做出来,所以也有可能是因为选择的题太难。
三年下来,虽然他在ICALP、ISAAC等理论计算机的会议与期刊上发表了论文,但总体感觉还是困难比较多,所取得的成果也远远没有达到鬲融对自己的要求。回想当时的磕磕绊绊,鬲融分析,做研究无非就是两方面:一是找到合适的题目,二是把这个题目做出来。在选择近似算法时,他对第一步的认知只是在“世界上已有的难题”上,直到后来转向机器学习理论研究,才发现:原来学会自己定义问题,也是一项可贵的研究能力。那一年,Hinton与他的学生Alex在ImageNet比赛中凭借AlexNet远超第二名10个百分点,勇夺冠军,深度学习崛起。鬲融的博士导师 Sanjeev Arora敏锐地察觉到机器学习(尤其是深度学习)在未来的发展潜力,开始关注机器学习。当时,鬲融正在近似算法的课题上挣扎,这正好给了他重新选择的契机。刚好他本科在微软亚研实习时也接触过机器学习,对这个方向也很感兴趣,于是就选择了转向研究机器学习理论。在这里不得不提的一点是,Sanjeev Arora 在鬲融读博期间对他产生了重要影响,不仅直接引导他走进了机器学习研究领域,也塑造了他做科研的方法与态度。Sanjeev Arora是普林斯顿大学计算机系的Charles C. Fitzmorris教授,以研究概率可检验证明(尤其是PCP定理)而闻名,1996年获得斯隆研究奖,2001年与2010年共两次获得哥德尔奖(理论计算机领域最高奖),2012年又获得西蒙斯研究奖与福尔克森奖(离散数学领域最高奖),是理论计算机研究领域有名的翘楚。鬲融是 Arora 门下的第一个中国留学生。在鬲融来到普林斯顿的前一年(2007年),Arora 与 Satyen Kale(现任谷歌研究科学家)刚刚用乘法权更新算法(Multiplicative Weight Update Method)的矩阵版本求解了 SDP,并对一些问题给出了更快的近似算法。MWU 的特点是理论复杂,但算法简洁。Arora 在近似算法上“大道至简”的追求,吸引了鬲融。截至目前,Arora 只带过 3 名中国学生,除了鬲融,其余 2 位是马腾宇与李远志,后来都成为了机器学习领域的佼佼者。马腾宇与李远志也是清华大学的校友,分别在2012年、2013年来到普林斯顿读博,是鬲融日后的重要研究合作者。马腾宇毕业后到斯坦福大学任教,2021年也凭借在非凸优化上的研究成果获得了斯隆研究奖,而李远志毕业后加入了卡内基梅隆大学机器学习系担任助理教授。在鬲融的眼里,Sanjeev Arora是一位各方面都让人佩服的学者:在转向机器学习之前,他在近似算法及其复杂度的研究上已获得非常出色的成就。很多人可能在某个方向上做出成果,就会沿着这个方向继续做一辈子,但他是一个很喜欢研究新东西的人,喜欢挑战自己,每隔几年就会换一个新的方向,然后每个方向都能取得不错的成就。当时转向机器学习时,他在第一年或第二年就做出了很好的结果。
也是因为 Arora 的这项品质,他在2012年转向机器学习研究时,促使鬲融等人也注意到了机器学习,直接改变了鬲融的研究方向。2012年转向机器学习时,鬲融已是一名博“四”生,开始一个全新的方向需要极大的勇气。但他二话不说,重新调整了自己的方向。出乎意料的是,转变方向后,他的研究进展异常顺利,最后两年连续发表了 8 篇顶会论文,其中理论计算机顶会 FOCS 就有 2 篇、STOC 有 1 篇,远远超过了博士前三年的成果总和。与近似算法不同,机器学习是一个相对较新的领域,有许多新的问题。从鬲融的角度来看,这时他的研究问题变成了:如何把一个实际的机器学习问题放到理论的框架里讨论?在这个过程中,“自己定义问题”的重要性明显上升。当时,鬲融在微软研究院新英格兰分部实习,参与主题建模(Topic Modeling)的研究工作。主题建模被用于对数据(网页、新闻、图片等等)进行自动理解与分类,在理论研究上侧重于学习模型的参数。当时的方法大多依赖于奇异值分解(SVD),但SVD方法有两个限制:要么假设每篇文章只包含一个主题,要么只能恢复主题向量的范围,而非主题向量本身。针对 SVD 用于主题建模的局限性,鬲融与 Arora 等人提出了一个问题:“如果没有真正的矩阵 AW ,而是从每一列所代表的分布中得到一些样本(比如 100 个样本),怎么办?”他们假设并证明了 NMF(非负矩阵分解)比 SVD 更适用于主题建模,并利用 NMF 获得了第一个没有上述两个限制的多项式时间算法,该算法可以泛化至包含主题与主题相关的模型,比如相关主题模型(Correlated Topic Model)与弹珠机分配模型(Pachinko Allocation Model)。最后,他们的工作(“Learning Topic Models - Going beyond SVD” )发表在 FOCS 2012 上。这也是鬲融在 FOCS (理论计算机方向中稿难度最高的会议之一)上发表的第一篇论文。地址:https://arxiv.org/abs/1204.1956之后,他又在主题建模的研究上陆续发表了几篇文章,包括被 ICML 2013 录取的工作“A Practical Algorithm for Topic Modeling with Provable Guarantees ”,在业内引起不小关注,积累了一点名声。在理论研究领域摸爬滚打多年后,鬲融发现:重要的问题并不一定是很多年前就有人提出来的,提出问题本身也是一个重要的研究方向;在做研究时,如果一个问题进展不顺,不一定是你的研究技术不对,也有可能是你提的问题本身就是错的。这也是鬲融在读博期间的主要收获:对研究形成了一个比较完整的认知,并学会了如何选择一个适合自己的题目。鬲融能够“守得云开见月明”的另一个重要因素是坚持。而这一品质,也主要是受到 Arora 的影响。鬲融回忆,在读PhD时,他在研究问题上卡住时,虽然会花时间去想,但经常会有一种感觉,就是“这个想法好像不行,做不下去”,便想放弃。在每周的组会上,他与 Arora 讨论卡住的点,说不知道该怎么做时,Arora 都会说:“这只是一点困难,你可以换一个思路,尝试别的解决方法。”“如果要放弃正在进行的方向,就要给出严谨的证明,让 Arora 相信这个方向确实做不了。但是,只要没有证明这个方向不行,他就不会放弃,会不停地想各种解决办法。”鬲融形容,“在这种精神下,后来我也确实解决了一些卡住的问题。”大约是受到 Arora 的鼓舞,鬲融渐渐懂得了坚持,面对难题时也会乐观许多,更倾向于觉得“这个课题是可以做的”而不是“这个想法好像不行”,即使题目暂时没有做出来,也不会轻易放弃,而是坚持到实在做不下去的时候。他感叹:“如果当时我一说某个思路有哪些困难、觉得做不下去,Arora 就说我们不做这个题了,那么现在的结果肯定会不一样。”但是,尽管最后两年发表了一些论文,与竞赛、本科时的辉煌成绩相比,鬲融的博士生涯还是相对黯淡:没有大厂奖学金,没有最佳论文。换作旁人,博士期间能在理论计算机顶会 FOCS 与 STOC 上发表3篇工作,已经非常了不起,但对这位清华特奖获得者来说,总觉得还缺点什么。鬲融在2013年获得博士学位。当时,他刚刚在机器学习理论的酒席上喝到微醺,意犹未尽,“感觉还有很多事情想做”,于是就决定去之前实习的微软研究院新英格兰分部做博士后。也是在两年的博士后期间,鬲融开始了在非凸优化(Non-Convex Optimization)方向的研究,为之后获得斯隆研究奖打下了基础。在他还是一名实习生时,微软内部就有人在研究用张量分解(Tensor decompositions)做话题建模。他们的技术非常神奇,就是用两个矩阵乘一下,然后做一下对角化就能得出成果,光看论文本身完全不明白为什么这么做会有用。鬲融就很好奇:“为什么张量分解这么厉害?我不知道有什么理由,所以我就想去研究。”于是,他们尝试用张量分解来研究话题模型上的参数问题,发现张量分解不仅可以用于解释话题模型的参数问题,还可以解释与话题模型类似的机器学习模型的参数问题。他们的工作“Tensor decompositions for learning latent variable models”最后发表在了机器学习顶刊 JMLR上。地址:https://arxiv.org/abs/1210.7559
他们在这方面做了很多工作,也取得了不错的成果,但用鬲融的话说,就是“做多了,也就没那么有意思了”。所以,到了博士后阶段,他就开始寻找新的方向。他从张量分解出发,无意间发现了一个新的研究课题,就是非凸优化(non-convex optimization)。当时,他发现在张量分解的算法中,比如张量有10个部分,当时的算法是一个部分、一个部分地找,但有时候,我们会想同时找出这10个部分,这时就需要用到优化技术。那时大家常用的随机梯度下降优化方法并不管用,于是他就花了很长时间研究如何转换一个目标函数,可以使它的效果更好。鬲融回忆:“可能是运气比较好,在寻找、测试目标函数时,我首先找到了一个目标函数,使得这个优化方法可以把所有的张量部分同时找出来。分析随机梯度下降的时候,我们研究出了一套新的分析方法,后来发现这套分析方法非常有用,不止对我们研究的张量分解问题有用,对许多其他问题也有用。”接着,他与袁洋、金驰、黄芙蓉等人沿着这个方向继续研究非凸优化的函数。在许多情况下,非凸函数的目标是找到一个合理的局部最小值,主要的问题是梯度更新被困在鞍点(saddle points)中。他们尝试辨析非凸优化问题的鞍点性质(如果函数没有退化的鞍点,那么对梯度做轻微的扰动就可以逃出鞍点),以进行有效优化。利用这个属性,他们发现随机梯度下降可以在多项式迭代中收敛到局部最小值。这是第一项为在具有多个局部最小值和鞍点的非凸函数中的随机梯度下降提供全局收敛保证的工作。他们的工作开拓了一个新的研究方向,其成果“Escaping From Saddle Points --- Online Stochastic Gradient for Tensor Decomposition”被机器学习理论会议 COLT 2015 收录,吸引了许多人往这个方向努力,并获得了许多新的结果。地址:https://arxiv.org/abs/1503.02101
这是鬲融没有想到的:“我感觉还是挺幸运的,我从一个非常特殊的问题出发,但是我们最后得到的结论是非常广泛的,研究也受到不少重视。”这项工作对机器学习理论研究领域的贡献主要有两个:一是证明了张量分析中他新提出来的目标函数有一些好的性质,比如它没有坏的局部最优解,它的鞍点也有一些性质;二是证明了我们可以用很简单的算法(如梯度下降)来优化所有具备这种性质的目标函数。也是凭借这两个主要贡献,鬲融在2019年获得斯隆研究奖。后来,他又分别在这两个贡献上作了进一步的研究。比如,在第一个贡献上,他们后来证明更多函数都具备类似性质,包括与马腾宇、Jason Lee等人合作的那篇工作“Matrix Completion has No Supurious Local Minimum”(获 NIPS 2016 最佳学生论文)也证明矩阵补全(matrix completion)没有坏的局部最优解。据说,鬲融与马腾宇合作的这篇工作从开始构思到完成投稿,前后只用了不到两个月时间。那时 COLT 2015 的工作刚发表不久,可以借鉴一二。鬲融回忆:“当时做的时候,我们就很有信心,因为我们三个人都觉得这个东西肯定是对的。马腾宇也很快就有了一些具体的想法,我们按照一些步骤去做,然后挺顺利地就做出来了。”至此,鬲融已成为研究用非凸优化寻找最优神经网络参数的早期开拓者之一。但是,在2019年获得斯隆研究奖后,鬲融又像2004年拿到IOI金牌一样,若无其事地回到了原本的生活轨迹上,做一名安安静静做研究的教师。斯隆研究奖每年表彰一次,在以往的获奖人员中,有47人后来获得诺贝尔奖、17人获得菲尔兹数学奖、69位获得国家科学奖、18位获得约翰贝茨克拉克经济学奖。史上许多著名的科学家都曾获得斯隆研究奖,包括物理学家理查德·费曼 ,默里·盖尔曼,以及博弈论学家约翰·纳什。从2008年清华毕业,到获得斯隆研究奖,鬲融用了 10 年。在这期间,他在 4 字班的许多同学(如楼天城、贝小辉)都已早早在新的领域声名鹊起,但人们谈起鬲融,仍只是围绕竞赛与GPA。虽然鬲融在中途沉寂了很长时间,但在姚班创始人、中国首位图灵奖得主姚期智姚先生的心中,他的名字一直是姚班教育的骄傲。在2017年鬲融还没有获得斯隆研究奖时,姚先生谈起姚班教育,首先就提到了他的名字:在学界的,我们有好几个做人工智能的学生,已经在大学任教的有两个,一个是在美国的杜克大学,一个是在美国的斯坦福大学做教授,他们都从事人工智能理论基础方面的工作。他们在过去的四五年,在人工智能理论方面已经非常非常出色……他们确实可以说在人工智能领域是先驱,将来一定会在该领域留下非常深刻的痕迹。
其中,在杜克大学任教的便是鬲融,而在斯坦福任教的则是鬲融的同门师弟马腾宇。听闻姚先生的挂念,当时离开清华多年的鬲融心中感触万分:“我感觉挺感动的,因为姚班出来很多很强的人,远远不止我们两个。”图注:2019年,鬲融回清华交叉信息研究院(即“姚班”)作学术报告
在鬲融的成长路上,姚班的身影其实从未远离。他提到,之前在姚班所学习的知识、思路,一开始不知道有什么用,但后来都用上了,甚至后悔“当初怎么不多学点”。而曾经的同窗好友虽然选择了不同的人生方向,“但想到大家跟我一样都在努力,就觉得蛮开心的。”4. 理论研究的意义
“对我个人来说,如果我知道一个算法,但是我不知道它的工作原理,是一件不太高兴的事情,所以我自己主要就是因为好奇才选择做机器学习理论研究。”问及从事理论研究的意义,鬲融这样谈道。而从整个机器学习领域的发展来看,理论机器学习的研究主要有两个意义:一是如果知道神经网络算法的工作原理,我们就有希望解决一些问题,比如让它变得更快,或者用更少的资源;二是可以解决人们关心的一些实际问题,比如计算机视觉中神经网络的弱关性问题,把一张图片错误识别为其他图片。
在深度学习时代,机器学习算法尝试从文本、图像等数据中自动学习有用的隐含表示。近年来,鬲融的研究重点是希望通过非凸优化与张量分解研究如何设计高效的算法找到这些隐含表示,比如神经网络模型中的超参数化。目前的一个观点是:有了超参数化后,优化会变得简单。有些工作也得到了同样的结果,但还有很多问题是未知的,比如:神经网络要多大,才能有足够好的优化性质?有些观点认为神经网络要无穷宽,鬲融团队的研究课题则是:你的神经网络不需要无穷宽,只要足够宽就可以证明一些类似的性质。他们最近做了一个工作(“Guarantees for Tuning the Step Size using a Learning-to-Learn Approach”),从理论角度研究如何通过机器学习方法来设计新的优化算法,得出了一个有意思的结论:对于优化问题,如果你用最基本的back-propagation(反向传播)方法来算,它的梯度可能会算不准,如果用其他的方式算,可能还可以算得更精确一些。在未来,他希望能够进一步了解神经网络的优化性质,然后,在掌握足够多的性质后,可以设计出更好的算法。对于想要从事理论研究的学生,鬲融的建议是最好先加入一个研究组去做具体的项目,一是看自己适不适合,二是对机器学习领域的发展有更具体的了解,日后做研究时能更好地定义研究问题。作为最早进入机器学习领域的研究者之一,鬲融能明显感觉到近几年来该领域的飞快发展,论文投稿数量呈指数级增长,给人一种浮躁的感觉。由于很难找到足够多的、有经验的审稿人来支持大规模的会议投稿,导致会议论文的结果有些随机。面对这一现象,鬲融感叹他也难有作为,只能对自己和自己的学生有一个基本要求,就是投出去的论文至少要达到自己满意的标准。随即,鬲融又说:“虽然我对文章的要求严格,但在担任审稿人时,我感觉自己给分还是偏高的。”所谓「取其上者得其中,取其中者得其下」,鬲融在非凸优化与张量分解上的研究成就看似偶然,追溯根源,其实在于他对自己做研究的高要求:对好奇的问题刨根问底,对完成的工作精益求精,耐心、敏锐又谦逊,则成事只在时日长短。科研前期的艰难探索也许是必经之路,即使智如鬲融也不例外。读博三年还没有“像样”的成果?别慌,坚持一下,说不定你也能拿斯隆研究奖。
作者注:人物/采访、交流、爆料、抬杠,欢迎添加微信(302703941)。
雷锋网雷锋网雷锋网
雷峰网特约稿件,未经授权禁止转载。详情见转载须知。