微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

本文作者： camel

2017-11-29 16:09

导语：挖掘社交网络潜在规律，助学习、工作、科研发展。

社交网络和数据挖掘是计算机学科相关研究中的热点。

近年来，以微博、微信等为代表的在线社会媒体逐渐成为人们发布、传播和获取信息的主要媒介。在社交网络中汇聚了大量的用户关系数据和信息传播数据，对社交网络数据的研究和挖掘将为我们了解和研究人类社会、经济、商业等的潜在规律提供极大的帮助。

那么在海量的社交网络数据下面存在着什么样的特点和规律呢？在线社交网络的信息传播与物理社交网络的信息传播有什么样异同呢？如何挖掘社交网络的数据以从中发现一些潜在的社会、经济和商业规律呢？社交网络和数据挖掘的前沿研究方向在哪里呢？

不管你是青年爱好者、计算机科学工作者，还是社会科学研究人员或者企事业单位的管理人员，对这些问题的探讨和学习，都会对你的工作、学习、研究有极大的帮助。

12月22日-24日，由中国计算机学会（CCF）主办的第87期CCF学科前沿讲习班（CCF-ADL）将以《社交网络和数据挖掘》为主题，邀请数位来自国内外该领域重量级的专家学者对这些问题做一系列主题报告。雷锋网作为独家合作媒体，也将到场聆听大牛分享，并对讲习班内容进行全程报道。

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

他们将对社交网络和数据挖掘的基础理论、关键技术方法以及当前热点问题进行深入浅出的介绍，并对如何开展该领域前沿技术研究等进行探讨，以及分享近几年在在线社会媒体中的信息传播预测方面的研究成果。相信与会者必然能够从中了解到社交网络和数据挖掘领域的重点和热点，给自己的学习、研究和工作带来新启发。

（雷锋网编者注：CCF-ADL系列开班以来，主题涉及深度学习、类脑计算、区块链技术、城市计算、计算机视觉等各大领域，邀请了学术界、工业界包括微软研究员郑宇、360首席科学家颜水成、港科大杨强教授等，聚集产学研各界人士，给数千人分享了学术前沿成果和应用方法。雷锋网作为独家合作媒体，将对讲习班进行深入报道，无法到达现场的同学，雷锋网·AI慕课学院也会呈上已获授权的全网独家在线视频（http://www.mooc.ai/course/307）以供学习。

下面雷锋网对课程内容作以简要介绍，详细内容请参阅AI慕课学院介绍。

特邀讲者

Philip S. Yu：通过社交网络信息融合的“Broad Learning”

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

Philip S. Yu，ACM/IEEE院士、美国伊利诺伊大学芝加哥分校特聘教授、清华大学软件学院客座教授。

报告简介：

在大数据时代，以各种格式存在的数据资源非常丰富。一种有意思的想法就是将这些不同格式的资源融合在一起，来协同挖掘数据背后的信息，这将比单一的数据资源获得更多有价值的结果。“Broad Learning”正是这样一种新型的学习任务。但BL在将不同的数据资源有效融合的过程中仍然存在着巨大的挑战，这不仅取决于数据源的相关性，还取决于目标应用问题。在本次报告中，我们将探讨如何融合社交网络信息来改善各种应用场景中数据挖掘的效果。

唐杰：社会影响力与行为预测

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

唐杰，清华计算机系副教授、博导、CCF杰出会员、清华-工程院知识智能联合实验室主任。主持研发了研究者社会网络挖掘系统AMiner，从亿级文献数据挖掘科技知识，吸引了220个国家/地区800多万独立IP访问；核心技术应用于国家科技部、自然科学基金委、中国工程院、ACM、美国艾伦人工智能研究所、搜狗、阿里巴巴、腾讯等单位。

摘要：

社会网络已经成为沟通真实物理世界和虚拟互联空间的桥梁。我们在互联网络中的行为直接反映了我们在真实世界的活动和情感。我将介绍在大规模真实网络中（如：微信、微博、Twitter、 AMiner等网络）如何分析用户之间的交互影响力和基于网络拓扑的结构影响力，并基于影响力预测用户行为。模型同时考虑了网络结构、用户属性和网络用户的偏好。并设计了针对大规模网络的并行学习算法。在实际真实在线社交系统中得到了验证。

沈华伟：在线社交媒体中的信息传播预测

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

沈华伟，博士，中国科学院计算技术研究所研究员，中国中文信息学会社会媒体处理专委会副主任。

摘要：

近年来，以微博、微信等为代表的在线社会媒体逐渐成为人们发布、传播和获取信息的主要媒介。社会媒体汇聚了大量的用户关系数据和信息传播数据，为分析和研究人类社会活动提供了弥足珍贵的数据资源。社会媒体中数据多源异构、个体间关系繁杂、信息传播突发等特点给社会媒体分析提出了科学技术挑战。分析社交网络的结构规律、挖掘用户行为的固有模式、探索网络信息传播的内在机理、研究高效的社交网络分析与网络信息传播预测方法，有利于提升对在线社会媒体的科学认知水平和有效利用能力。报告将从网络结构分析、网络表达学习、网络信息传播预测等几个方面介绍报告人近几年在在线社会媒体中的信息传播预测方面的研究成果。

宋国杰：社会网络信息传播影响最大化挖掘

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

宋国杰，北京大学信息科学技术学院副教授，智能交通系统研究中心副主任。

摘要：

网络信息传播挖掘研究是近年来社交网络分析领域的热点问题。报告将重点介绍两方面的研究工作：传播影响最大化（Influence Maximization）和网络推断（Network Inference）。前者主要研究在既定传播模型下，如何高效寻找社交网络中信息传播影响力最大的Top-k节点集合，而后者则是在给定观测到信息传播级联数据集的基础上，推断出隐藏的、不可直接观测的社交网络拓扑结构。报告将重点介绍这两类工作的代表性研究成果，并对未来发展进行展望。

Wei Wang：动态网络的系统建模

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

Wei Wang，加州大学洛杉矶分校计算机科学Leonard Kleinrock首席教授，ScAi研究所主任，NIH BD2K中央合作中心的联合主任。

摘要：

含时网络（Temporal networks，即在网络中加入时间的成分）可以说是无处不在，因为众多的应用程序（包括微信、微博、twitter等）主要就是以时间依赖的方式生成的网络结构。近年来，在进化网络分析领域已经有了大量的研究工作，例如异常检车、链路预测、节点分类等。针对这些问题已经存在许多单独的解决方案，但是要想更广泛地解决类似的问题，我们需要考虑的是：我们是否可以直接把网络结构描述成时间的一个函数？在不同的应用环境中使用网络结构时，将其描述为时间的函数至关重要，因为这样的描述可以捕获非常丰富的关于底层网络结构的信息。在报告中，我将展示动态网络建模的一些困难以及我们的解决方案。

胡祥恩：语义表示和分析（SRA）以及潜在的应用

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

胡祥恩博士是孟菲斯大学（UOFM）心理学系，电气与计算机工程与计算机科学系教授，UofM智能系统研究所（IIS）高级研究员，华中师范大学心理学院院长，UOFM高级分布式学习（ADL）合作实验室主任，中国教育部青少年网络心理与行为重点实验室高级研究员。

摘要：

语义表示分析（SRA）是基于向量的语义分析的一般框架。在这个框架内，自然语言的语义以诱导语义结构的形式表示。 SRA在信息检索、文本分析和智能辅导系统中有很大的应用。在这个讲座中，我将会：1）介绍一个SRA的数学模型；2）介绍和展示一种生成个性化的、领域特定的、上下文敏感的语义表示的方法；3）介绍和展示作为局部学生模型的学习者特征曲线以及它在智能辅导系统中的应用。

石川：异质信息网络建模与分析

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

石川，博士、北京邮电大学计算机学院教授、博士研究生导师、智能通信软件与多媒体北京市重点实验室副主任。

摘要：

当前的社会网络分析主要针对同质网络（即网络中结点类型相同），但是现实世界中的网络化数据通常包含不同类型的对象，并且对象之间的关联表示不同的语义关系。构建异质信息网络（即包含不同类型的结点或边的网络）可以包含更加完整的对象之间的关联信息，因此分析这类网络有希望挖掘更加准确的模式。本课题以异质信息网络为对象，深入分析异质网络的复杂结构和丰富语义对数据挖掘带来的挑战。本报告将介绍异质信息网络的基本概念、特点、和分析方法，以及在实际问题中的应用。

崔鹏：网络嵌入：在向量空间中启用网络分析和推理

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

崔鹏，清华大学副教授。

摘要：

现在，在应用当中出现越来越大的网络，网络数据也变得越来越具有复杂性和挑战性。为了有效地处理图谱数据，第一个关键的挑战就是如何表示网络数据，即如何正确表示网络以便在时间和空间上高效地进行模式发现、分析、预测等高级分析任务。在这个报告中，我将回顾一下网络嵌入的最新思想和研究成果。更具体地说就是，将讨论网络嵌入中的一系列基本问题，包括为什么需要重新考虑网络表示，网络嵌入的研究目标是什么，网络嵌入如何学习以及网络嵌入的主要未来方向。

刘知远：语言表示学习与计算社会科学

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

刘知远，清华大学计算机系助理教授。

摘要：

语言是人类交流的工具、人类文化的载体，是了解人类社会的重要视角。近年来随着表示学习在自然语言处理中的应用，语言表示学习也为社会科学研究提供了全新的技术工具，特别是面向在线社会媒体的大规模用户产生内容进行用户和内容分析，具有很大优势。本报告将介绍语言表示学习技术在计算社会科学方面的最新动态，探讨该方向的未来发展趋势。

韩家炜：大规模语料库的多维分析

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

韩家炜，ACM院士和IEEE院士，伊利诺伊大学厄巴纳 - 香槟分校计算机科学系Abel Bliss教授。

摘要：

现实世界的大数据在很大程度上是以自然语言文本形式存在的非结构性的、相互关联的数据。对于这样的海量文本数据，从多维角度观看和分析是非常理想的。不过这也提出了一个重大的挑战，即如何将非结构化文本数据转换为结构化文本然后在多维空间中去分析这些数据。为了促进这样的分析，我们提出了一种文本立方体（textcube）建模方法，并讨论了如何从大量文本语料库构建这样的立方体，以及如何使用这种文本立方体进行多维OLAP分析。在过去的几年里，我们开发出一种文本挖掘方法，这种方法只需要远程的或最小的监督，而不是依靠大量数据。在这个报告中，我将展示：
（1）从海量文本数据中挖掘出高质量的短语；
（2）通过远程监督从海量文本数据中提取类型；
（3）通过元路径定向模式发现实体、属性和值；
（4）从大量的语料库中构建分面分类法；
（5）从大量文本构建文本立方体；
（6）对这些立方体进行多维分析。
这里我们展示的范例——将大量的文本数据转化为结构化和有用的知识——将是一个非常有希望的方向。

赵鑫：面向社交媒体平台的商业数据挖掘

赵鑫，中国人民大学计算机副教授。

摘要：

随着互联网技术的不断发展，各种社交媒体平台都得到了广泛的使用。社交网络平台中蕴含大量的用户信息，包括用户个人属性信息（如年龄、性别等等）、用户所发表的内容信息等等。如何充分利用社交媒体平台的信息来加强用户个性化建模，从而推动商业数据挖掘成了一个研究热点。本次报告试图系统梳理一些重要的商业大数据应用问题，如用户意图检测、用户画像构建以及推荐算法等。

杨洋：移民的城市梦——上海移民融合

微信、微博数据这么多，如何从中挖掘潜在信息？ | CCF-ADL 87期

杨洋，浙江大学计算机科学与技术学院助理教授。

摘要：

前所未有的人类流动推动了全球高速的城市化进程。在中国，1978年至2012年间，城市人口居住比例从17.9％上升到52.6％。这种大规模的移民对政策制定者和研究人员来说既是重大的挑战，又是重要的问题。在这个报告中，我将介绍我们对移民融合过程的研究。
具体而言，我们采用了上海一个月的电信元数据完整的数据集，其中拥有5400万用户和6.98亿个通话记录。我们发现本地人和移民在移动通信网络和地理位置上存在有系统的差异。例如移民在定居后相比本地人会有更多的社会接触，在城市中的移动半径要大于本地人。通过区分新移民（最近移居上海）和定居的移民（在上海待了一段时间），我们发现了新移民在前三周的融合过程。此外，我们进一步调查了移民在第一周的行为，特别是他们的行为与最终提早离开之间的关系。我们发现最终离开的移民，在头几个星期往往都没有发展处多样性的联系，也没有在城市周围移动；他们活动区域的住房价格也高于那些最终留下来的移民的住房价格。