0
雷锋网 AI科技评论按:近期在北京举办了第六届社会媒体处理大会(SMP 2017)。在正会第一天,电子科大周涛教授做了一场关于大数据在经济学、教育学、社会学中应用的特邀报告。周涛教授的精彩报告,时常引发会场的热烈掌声。
在报告最后,他给在场的学者们提出自己的建议,他认为在当前大数据和人工智能发展如火如荼的时代,社会学、经济学、教育学等传统上只能定性分析的学科正在面临着巨大的变化;而当时代发生巨变时,青年学者们一定要站在能够产生重大成果的地方,所以计算机研究人员一定要多多关注社会学科,在这些领域做出自己的贡献。
此外,周涛教授在回答现场的关于网络时代个人如何保护自己隐私的提问中,认为个人不应当妄想去保护自己的隐私,因为这是不可能的,也完全没有意义;保护隐私的责任和义务在于企业和政府,而个人能做的最好方法不过是归于平凡。所以最后整个报告以一句经典结束:因为平凡,所以安全。
周涛,现为电子科技大学教授,主要从事统计物理与复杂性方面的研究。在Physics Reports、PNAS、Nature Communications等国际SCI期刊发表200余篇学术论文,引用17000余次,H指数为63。2009年获教育部自然科学一等奖,2011年获第十二届中国青年科技奖,2013年获四川省科技进步一等奖,2014年获中国计算机学会自然科学二等奖,2014年起历年入选Elesvier最具国际影响力中国科学家名单(物理天文类)。2015年当选第十二届中华全国青联常务委员,并担任科学技术界别工作委员会副主任。2015年当选全国十大科技创新人物。2016年当选四川省首批杰出人才。2017年获全国创新争先奖。
下文为雷锋网根据现场记录,在不改变原意的情况下整理而成。
首先非常高兴能够在这里和这么多同事交流这个问题,也非常感谢学旗老师和华伟老师的邀请,谢谢专委会的组织。
刚才刘老师已经提到了社会计算的发展,计算和社会经济学等,我们探讨的是同样的问题。我们的方法是,用大数据、人工智能或统计分析的办法通过海量数据去解决经济学、社会学、教育学等问题。实际上大数据以及人工智能带来了很大的变化,对科学最大的冲击,不是来自于计算机学科本身,很大程度上是来自于它对社会学、管理学、心理学等等学科的影响,把这些原来只是半定量或者定性分析的学科变成了一个定量化的学科。
我今天主要是给大家讲三个例子来说明这种影响。这三个例子也都是我们近期的工作,一个是经济学的、一个教育学的,最后一个社会学的。
第一个例子就是我们用大数据加上人工智能的办法,去感知一个区域经济发展的真实现象,然后尝试给出这个区域经济发展的建议。
以前我们分析经济,用到了很多指标,像PPI、CPI、GDP等等。但是这些指数本身具有一些误解,比如说它比较滞后,往往需要半年甚至一年才能知道以前发生了什么;此外,中间还夹杂有大量虚假的东西,例如层层假报数据,让报上去的数据比原有的好看等等。
那么我们想要做什么呢?我们想先了解一个区域,比如一个地级市,它真实发生的经济情况是什么样子的?有没有风险?以及如果说我们看到一个区域的发展,我们能不能给出一些建议?
我们处理的方法是,通过海量事实数据,通过精确的分析,去感知它宏观的经济社会是怎么发展,然后来预测可能的风险。
举个例子。我们对300个地级市进行经济社会风险的监测。我们不再看它的GDP、PPI、CPI这些。我们收集了一些能够第一时间反应一个城市变化的数据。首先,我们从公开的网站上爬到各个城市的航空、铁路和公路人口流量(只有四十多个城市有公路人口流量,其他的只有航空和铁路的人口流量),也就是有多少人坐飞机、火车经过这些城市。其次是在这些城市注册的公司招聘的职位数目、职位类型和薪资水平。再次是所有这些城市的信息化和科技创新水平。最后是用遥感数据观察这些城市正在进行的重大建设项目,看看地面有没有人和车辆频繁运动,地表有没有发生变化,从而推断这些项目是否正常进行。
我们能够在第一时间获得第一手这些数据。利用这些数据,我们来反向去看这些城市有没有可能的重大风险。
我给大家举一个特别容易理解的例子,就是像鄂尔多斯这样的城市出现的问题。鄂尔多斯发生了什么事情呢?我们知道,在2013年,由于稀土和煤炭价格的大幅度下降,使得原本超高速发展的鄂尔多斯(当时鄂尔多斯一个城市的经济超过包头、呼和浩特的总和)的经济迅速下滑,很多建设的楼房都成了空楼,成了全世界最大的“鬼城”。
我们怎么去看这样一个问题呢?我们分析了两个很简单的量。第一个是信息化程度,数据就是这个城市有多少上网的IP(例如当年新浪微博、贴吧等)。另一个就是这个城市申请了多少市场占有权(文章、专利等),依此来看它的科技创新能力。
这个图中就很有意思。首先看A图,横坐标是一个城市的用户量,纵坐标是它的GDP。09年以前,中国一共是295个地级市,我们有293个完整的记录数据。从这张图上,我们看到GDP和信息化大致是呈正相关的。通过线性回归,我们拟合出一条线,斜率大概为0.93。水平地向上和向下移动这条线,超过这两条回归线的,就是异常的城市,例如鄂尔多斯、崇左、来宾、中卫,它们的信息化水平不高,但是经济水平远高于对应信息化水平的量。这些城市在2013年就从这条线以上掉了下来。这些城市有一个共同的特点,它们都是高度资源依赖型,例如鄂尔多斯,就是稀土资源比较丰富。
我们知道,在经济学里面,往上发展10%和往下掉10%是完全不一样的。当你高速发展时,很多金融机构都给你投资、贷款;但当你往下掉时,很多账都变成了呆账、坏账,然后连锁效应,带来金融危机。国家相关机构原来给一个城市投资,包括低息贷款时,它主要看一个城市的经济总量和它前五年的发展情况;但前面也看到了,鄂尔多斯这样的城市13年之前,经济总量和发展都很好,但其通过我们的分析就可以发现,事实上它的风险很大,所以给它借贷的时候就需要谨慎一些。
下面我们再来看一个关于巴西的例子。我们从网上爬到了8000多万条数据,简单来说就是,关于什么样的人会到什么样的行业去工作这样一个数据。巴西分了580多个行业(中国只分82个行业),图中每一个颜色都是一个产业分类,大概有20多个项,这些项细分为500多个行业,600多个工种。我们建一个图,每个节点都是一个600多维的vector,代表了劳工在这些工种中的分布。然后我们计算每两个vector之间的cos值,表示其相关程度。图中每个node的大小表示了这个工种上人数的比重。
我们通过构建这样的图,来看哪些产业之间的关系较为相近。(当然评价两个产业相近有很多办法,cos值只是其中一种)我们知道,如果两个产业相近,那么它们很有可能会有共同的经济元素(人、资源、物流、仓储等),在发展过程中可能会有协同作用。这个图很明显是一个中心密集型结构。
在产业发展过程中,我们发现了一些特点,例如巴西,它有两条learning trace。一条是inter-industry learning illustration,也即当和 A 产业相近的产业发展的都很好时,那么 A 产业也很有可能发展得很好,所以这时候如果投资A产业就很容易成功。
另一个是inter-regional learning illustration。意思就是,如果我周围的省A产业发展的比较好,而我的A产业发展一般般,那么周围省的A产业就会带动我的A产业的发展。
这张图就说明了上面的情况,横坐标是相近产业/地区的活动密度,纵坐标是新产业/地区获得成功发展的几率。图中右边的子图是将两张图结合起来看。
这种情况不仅在巴西,中国也是这样(中国只有82个产业分类,数据比较惨)。例如上海发展起来后,它周边的杭州、苏州、无锡等也都相继发展起来了;深、广发展起来后,连东莞的企业都大涨。(北京例外)。
这是从92年到16年北京/河北、上海/浙江的产业分布图。从图中我们可以看出几个城市产业的变化。
在邻近学习方面,中国的数据没有巴西那么好,不过仍然能够看出这样的规律。如果周边省份发展的比较好,那么这一个省份也会发展比较好;随着距离的减小,它们的工业相似性也逐渐增大。
上面的这些基于大数据和统计学的分析,我们就发现,不同的城市在不同的发展线条上,投资应当遵循一定的优化策略。这是我讲的第一个例子,就是怎样用海量的数据去感知区域发展的现状,给区域经济发展提供一个可定量化分析的策略。
教育学的例子就是,我们怎么通过行为数据来实现预测性管理。我们要做的一个问题就是去发现一个学生是否有重大问题。
对学业有较大影响的因素有很多,例如身体状况、智商、DNA、人格、行为等。我们主要关注人格和行为,因为它们是可以干预和调整的。以前我们对这些问题的研究只能是通过调查问卷的形式获得几十、几百的样本。现在由于技术进步,我们能够获得海量的数据,例如通过智能手机、mooc或者wifi等。
我们用的是学生校园卡使用情况的数据,我们根据这些数据能够知道学生在学校里打水、吃饭、洗澡(时间)、去图书馆、借书等等的情况。我们用了18960个匿名学生的大概3000万个记录数据。
我们先看两个简单的例子。
一个就是orderness,看你的生活是否有规律。我们用真实熵来衡量orderness。A图是18960名学生洗澡(时间)的数据。我们看到orderness排名前5%的学生(深蓝色),生活非常规律,基本上只在晚上9点洗澡;而后5%的学生(浅蓝色),则除了0-6点(澡堂不开门)外一天当中任何时候都可能去洗澡。B图中是吃饭情况,前5%(棕色)基本上都在三个饭点吃饭,而后5%(橘黄色)则基本上一天当中任何时候都可能去食堂刷卡,生活明显没有任何规律。
说明一下,这里我们之所以用真实熵,而不是香农熵或者Simpson熵,是因为我们不仅要看分布的集中性,还要看分布是否有顺序(例如吃饭,最好是早、中、晚餐都有,而没有间断)。真实熵是可以看到序列的规律性。
这张图也是根据18960名学生数据的分析。右边这张很容易理解,学习的努力程度(用的是进出图书馆的数据来计算)和GPA是高度正相关的。一个有意思的发现是,生活的规律性也和GPA成正相关,也就是说生活越规律,学习成绩就越好。
值得说明的是勤奋程度和生活的orderness是完全不相关的。所以前面的两个正相关的规律是完全独立的。
基于此,我们做了一个非常有意思的事情就是:异常分析。蓝色的是成绩下降,红色的是成绩上升。我们发现成绩下降与行为的关联是非常强的,而成绩上升则不一定。换句话说,逆袭不太容易,即使你做到了勤奋学习,成绩也不一定能有显著地提升。上升的我们管不了,但是我们可以通过你的异常行为来预测下次考试你的成绩是否会下滑。例如,你之前每月去30次图书馆,这个月就去了一次,那么肯定有问题。我们有20多个类似的异常分析。当然我们拿到的数据是匿名的,但是每个辅导员都知道大约100个学生匿名数据和学号的对应。如果出现了重大异常,例如连续多天没有刷卡记录,计算机就会自动给你的辅导员发一个通知,我们称之为失联预警。
这个事例就说明,将行为数据(特别是orderness数据)和勤奋程度数据结合起来使用,能够提高对学生学习成绩的预测性。
最后一个例子是怎样用big data做宗教网络的组织模式的研究。由于时间原因,我就简单地介绍一下。我们做的一件事就是用新浪微博的数据来做宗教网络的分析,当然这里面涉及到大量的文本分析,就不再具体说了。我们看一下这些宗教是怎么组织的。
这是中国的宗教网络关系,不同的颜色代表了不同的宗教。人数最多的竟然是基督教,大概占一半左右;佛教占40%左右,其他道教和伊斯兰教大概占10%左右。我们看到,宗教与宗教之间也是有联系的(相互是粉丝),但是在这张宗教网络中有一个非常独特的一点就是,网络是非常highly, highly, highly,strong, strong, strong的内关联的。strong到什么程度呢?如果我们算Newman的Mixing Pattern强度,它是0.987。其他几百种社交网络的情况,包括民主党和共和党的关系、不同人种之间的关系,这些分离都比不上宗教。宗教对内非常凝聚,对外则很少连接,这些比民主党/共和党,比不同人种之间的分离还要严重。这是我们第一个比较大的发现,即宗教带来的隔离和分离,事实上是高于人种、高于肤色、高于政治信仰、高于国家的。
第二个发现是,既然分离的这么厉害,那么跨越宗教的连接又是怎么样的呢?通过这张图我们看到,跨越宗教的连接其实很少;而总体而言,佛教虽然没有基督教人多,但是它在不同的宗教中起到了保持连通性的作用;通过文本分析,我们发现百分之七八十的保持连通的边都有做慈善的标签。这是一个非常重要的信息。
还有一个非常有意思的信息是,假设计算机是不知道连接之间是否是不同宗教,然后通过逐步去掉这些边来研究它们的重要性。我们发现如果按照“度”的方式来去掉这些边(事实上就是去掉宗教内部的连接),网络是没有相变的;而如果按照“bridgeness”的大小(bridgeness的大小表明了沟通不同区域之间的能力)逐渐去掉这些边,那么在不同的时候会出现两次相变;当按照“betweenness”的大小(简单说,这个指标衡量了一个节点作为媒介的能力,也就是占据在其他两个节点最短路径上最重要的节点,如果它拒绝沟通信息,那这两个节点就无法沟通,占据这样的位置越多,它的中介性就越大)依次去掉这些边,那么整个网络很快就崩溃了。同样,如果按“cross link”的大小(连接不同区域的能力)来依次去掉边,网络立马就崩溃。
这说明,保持整个融合性和联通性,是靠着这些跨宗教的人来实现。至于具体的因素,还需要通过文本来分析这些跨宗教的连接到底是来源于什么样的共同兴趣或属性。
以上我讲了三个例子来说明大数据、人工智能的研究在经济学、教育学、社会学中的应用。给大家一个建议就是:我有一个非常强烈的感觉,社会学、经济学等已经在面临巨变;当这个时代在发生巨变的时代,一定要站在很容易产生一些巨大成果的地方;所以我强烈建议,大家对社会学、经济学要有抱负。
问:个人如何保护自己的隐私而不被大公司、大政府甚至恐怖组织所利用?
周涛:这个问题很好。我的判断是,个人是保护不了自己隐私的。所以个人就不要往这个方面试图发力。要发力的是我们国家通过《网络安全法》以及《刑法》第二、第三条的解释,确保公司和企业去保护你的隐私。一种方式就是它不采集你的隐私;第二种是采集完之后立刻销毁;第三种就是你授权它采集,它采集完之后只用在很局限的地方,而不会影响你的个人隐私,不会给你带来伤害。
所以我们应该做的是去通过法律来约束大企业去保护你的隐私,个人试图、或者妄图保护自己的隐私是完全不可能的,也没有任何价值。例如,只要你出了这个门,在北京市里,天眼都能知道你的轨迹。你还能不上街?你敲击键盘的顺序,原则上主机商都能拿到!所以自己保护隐私,这是不太可能的事。所以还不如期望好公司高抬贵手,不侵犯你的隐私。
另外就是,平凡的人会被保护得更好。比如iPhone被攻击后,很多女明星的裸照就被上传了,但同时很多其他被攻击的人照片就没有被上传。这是因为她们太平凡,连黑客都不去关注。
因为平凡,所以安全。
雷锋网注:SMP 2017已然结束,第七届社会媒体处理大会(SMP 2018)将在哈尔滨市召开。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。