0
前几日,雷锋网报道了 武汉大学成立人工智能研究院的消息 后,有读者看到国内已成立的人工智能学院列表中有「中国人民大学-高瓴人工智能学院」,表示好奇人大成立人工智能学院做什么。雷锋网在这篇文章中详解「高瓴人工智能学院」的「思」与「做」。
一千个读者,就有一千个哈姆雷特。
一千所高校,也将有一千个不同特色的人工智能学院/研究院。
中国人民大学,与清、北并称三大超一流名校,清华理工,北大文理医,人大社科。一直以来在人们的印象中,人大是社科的巨无霸,但理工却几无存在感。
然而,在今年年初(1月19日),人民大学宣布成立了高瓴人工智能学院,并做如下定位:
“高瓴人工智能学院是学校下属的二级学院,负责学校人工智能相关学科的规划与建设,开展本学科领域的人才培养和科学研究工作……充分发挥学校在人工智能相关学科的已有优势,建设世界一流的人工智能学科,提升学校的国际影响力和竞争力。”
高瓴人工智能学院的副院长张国富教授曾多次表示:“我们想和北面两所学校(作者注:清、北)做不一样的 AI。”
如何不一样?人大有自己的考虑,我们可以先从科学方法范式的变革说起。
(以下部分内容借鉴了高瓴人工智能学院院长文继荣教授11月19日的演讲内容,未经文继荣院长本人确认,仅代表个人见解。)
在以往的数百年中,无论是自然科学还是社会科学,思考其研究方法的核心本质,总可以归结为如下公式:
所有研究都只是为了从纷繁复杂的世界,从多变的样本当中寻找出隐藏在表象背后的客观规律,一个不变的、稳定的规律。特别是在自然科学领域,我们总希望能够将客观规律表示成一个模型或方程。
这种方法,本质上是一种科学主义传统或者理性主义传统,我们希望能够从直觉或少量样本中通过归纳、演绎等方法得出这样的模型、函数或方程。一旦掌握了这样的模型/函数/方程,我们就可以拿着它来解释各种各样看起来比较多变的现象,去分析无常的世界中那些稳定不变的东西。
在人类发展历史上,尤其是在科学进程上,我们一直在各个领域探寻尽可能简单优美的模型。这个模型越简单,越优美,越具有普适性,我们就会觉得这个模型越好。
这种方法在自然科学领域取得了很大的成功,也已经成为现代社会最为核心的推动力。可以说今天生活中的方方面面都是这种思想指导下的科技所带来的成果。
我们找到了自然中这样的一些稳定的、不变的、客观的规律。
但我们也应当注意到,在过去这么多年里,当我们把这种科学方法应用在社会科学当中时,我们发现了很多困难。例如我们用公式来描述经济规律、预测股市等,常常会出现预测之外的结果。
这说明,这种方法在社会科学中并不适用。
原因在于,社会科学是一个复杂的、非线性的、(超)多变量的系统,通过小数据/直觉,往往难以揭示这样系统背后真正的不变规律。
更重要的则在于,自然科学可以通过大量的实验来收集大量数据,而社会科学则很难通过重复实验来获取数据,因此存在样本数据稀少的情况。这也给人们留下了“社会科学并不科学”的印象。
大数据时代的出现,给我们提供一个前所未有的机会。我们突然有机会收集很多数据,尤其是在一些以前很难做实验的场合来收集数据。我们发现当我们收集数据越来越多的时候,我们甚至可以不用去找数据背后隐藏的模型。
大数据提供了这样一种方法,可以直接从输入到输出的映射,相当于是纯经验的方法。我们知道如果经验足够多,我们可以不用去寻找模型,绕开模型,直接用经验解决问题。这是用大数据解决办法的本质。
这种方法在很多领域已经取得成功,但是这个方法有一个问题,即,很多时候数据不够多。很多情况下,你会发现你的数据不能覆盖到所有的情况。
人工智能,是在大数据背景下出现的新方法:尽管问题很复杂,我还是能够找到数据背后的模型,从而把握事物的不变性和规律性。它的方法与传统方法的不同,它是从“海量的样本数据”中寻求“复杂模型”。
以前自然科学的方法是从少量的数据、少量的实验样本里面寻求简单的模型,它可以用在自然科学方面,但是社会科学不可以,因为问题太复杂、变量太多。
但是现在有了基于大数据的人工智能方法,我们会发现可以从海量的数据里面寻求复杂的模型。
一个系统可能有几千万、几十亿的变量,背后可能是非常复杂的非线性问题,没有关系,我们仍然可以构建出来这样的模型。
深度学习,正是这种方法的代表,它能够从海量数据中非常高效地学习出复杂模型。事实上,深度学习不仅仅只是去做人脸识别、自动驾驶,它对社会科学同样有效,将之应用于社会科学,将产生颠覆性的革命。因为它给我们提供了一种有效的研究复杂问题的新方法。
这种新的科学范式就是:大数据+人工智能的研究范式。
深度神经网络,可以理解为一个非常复杂的函数 f。在计算机视觉中,我们用它来表征建模人看见一个物体时发生了什么,现在我们在这方面已经取得了非常好的成绩,在特定领域已经能够超过人类的表现。
那么将这种方法应用到社会科学中会有什么不一样的呢?
文继荣教授举了几个例子:
文继荣介绍,他们从30万条新闻中,将产业转型的数据抽取出来。其中的 x 就是这 30万的新闻数据,而通过建立模型,绘制除了如图所示的产业转移结果 y = 产业转移数(时间,省份1,省份2)。把其中低频的数据去掉后,得到右边的图。
从中便可以很容易地看出,中国的产业转移是以北、上、广为中心;而三地转移情况却各不相同,北京往周边转,上海往中东部转,而广州则仍然转在本地。通过这种方式,便可以将原有的数据变得形象化、可视化,从而揭示出原来不可能发现的经济规律。
文继荣继续举了与社科院合作的一个成果,研究意识形态问题。他们根据 1.7亿用户、27亿的微博数据(其中有几百万的大V),发现很多有意思的现象。例如他们从微博数据中发现事实上中国近年来并没有严重的民粹主义,且呈现民粹主义呈现多元化,民众更关心国内事务和政策。
第三个例子是文继荣在微软期间的工作。2012年文继荣通过公开的网络数据来分析奥巴马和罗姆尼的民意基础,从而预测美国总统大选,结果相当准确。文继荣打趣说,这个模型放到现在再去预测已经不准了,“因为美国水军已经成长起来了”。
注:右侧的灾害分布图来源于网络,此处仅为示例
历史,也同样可以做。我们可以把史料数据化,通过各种方式来建模,比如说灾害(水灾、旱灾、蝗灾)在历朝历代是怎么发生的,产生什么样的影响,跟人口出生、GDP、战争、瘟疫等等有什么关系等。我们可以把这些问题转化成数据分析的问题来做,现在的技术已经可以做到,但距离真正的数据化历史还很遥远,这涉及到如何去构建一个庞大的技术平台。
法律方面,文继荣有颇多成果。举例来讲,如上图,他们利用几千万法律文本判决书做了分析系统,输入“黑社会”,就会得出如上图右侧的分布图,其中颜色越深表示相应的案件越多。从中可以看出江西很特别,而东三省和大家想象的似乎不太一样。
以上仅为部分社会学科与新范式科学方法的结合,且只是初步。实际上目前已经有很多人在作者相似的事情,很多社会科学研究也正受益于大数据 + 人工智能。
但目前这种方法在与各个学科结合的过程中仍然存在着一系列的问题。例如往往没有直接数据,或者数据是以非结构化的文本形式而存在的。
此外,目前懂得使用这种技术的计算机专家并不懂得相应的社会科学,而反过来其他的领域专家往往又并不擅长对大数据和人工智能的利用。抽取什么数据来分析?分析什么问题?怎么分析?领域专家应当与计算机专家进行深度合作。
人大最不缺的就是社科领域专家。
这正是人大的优势所在,也正是人大高瓴人工智能学院的优势所在。
正如前面提到,高瓴人工智能学院若想“充分发挥学校在人工智能相关学科的已有优势”,就必须与其他学院紧密协作。
在本月19日,在中国科协的支持下,由中国人民大学主办了“首届智能社会治理论坛”。
这次论坛的参与方包括中国科协-中国人民大学智能社会治理研究中心、中国人民大学国家发展与战略研究院、中国人民大学文化科技园、民盟中国人民大学委员会、高瓴人工智能学院、经济学院、法学院、社会与人口学院、新闻学院、劳动人事学院、未来法治研究院、新闻与社会发展研究中心等。
这次会议,事实上可以看做是人大高瓴人工智能学院与各个兄弟学院正式“结盟”的一次标志。
文继荣作为高瓴人工智能学院院长,在会议上宣布了十个“智能社会治理的前沿问题”,作为他们在未来与兄弟学院共同合作的靶标。分别为:
第一个课题:智能社会治理大数据平台建设(人工智能学院)。
第二个课题:智能社会治理的算法与机制设计(人工智能学院)。
第三个课题:是智能社会算法和数据的法律规制(法学院)。
第四个课题:智能社会互联网平台的法律责任(法学院)。
第五个课题:智能社会的经济规制和竞争政策(经济学院)。
第六个课题:智能社会数字经济与中国经济转型(经济学院)。
第七个课题:智能社会公共理性与舆论治理(新闻学院)。
第八个课题:智能社会公共伦理建设与规范(新闻学院)。
第九个课题,智能社会互联网与人际关系重塑(社会与人口学院)。
第十个课题:智能社会秩序与智能化治理(社会与人口学院)。
从这个列表中,我们可以看出人大在人工智能的发展定位上,与清、北完全不同。人大更加强调人工智能技术与各个社会科学之间的结合,通过新的技术、新的研究范式来改变传统的社会科学。在这个过程中,人工智能学院即是中心,又是边缘。
或许我们可以认为,人大把 AI 技术视作为社会科学的「新数学」。
相关文章:
雷峰网原创文章,未经授权禁止转载。详情见转载须知。