0
本文作者: skura | 2018-12-16 17:22 |
雷锋网 AI 科技评论按,12 月 14 日,中国计算机学会 YOCSEF 在中科院计算所举办「知识图谱」专题探索班。知识图谱和图数据是目前计算机学科相关研究中的热点,具体研究涵盖知识图谱构建,知识图谱的存储和查询系统,面向知识图谱应用,以及大图数据的处理分析方法及系统等。
知识图谱和图数据为计算机研究者提供了一个非常好的交叉研究对象,这包括自然语言处理、数据库、知识工程和机器学习等领域。同时基于知识图谱的工业应用,也是各大互联网公司以及一些创业型企业共同关注的焦点。
基于此,此次探索班邀请到自然语言处理、数据库、知识工程和机器学习领域重量级的专家做报告,进行报告的专家教授名单如下:
张钹 清华大学计算机系教授、中科院院士
吴信东 明略科技首席科学家、路易斯安那大学教授、IEEE/AAAS Fellow
周畅 阿里巴巴达摩院高级算法工程师
洪亮 武汉大学信息管理学院副教授
漆桂林 东南大学教授、博导
赵东岩 北京大学教授、大数据研究院自然语言处理与认知智能实验室主任
贾岩涛 华为公司中央软件院知识图谱首席技术专家
肖仰华 复旦大学计算机科学与技术学院教授
大家结合自己的研究领域,围绕知识图谱,对其理论、应用以及创新和未来进行了精彩讨论,以下为各位嘉宾的探讨内容,雷锋网 AI 科技评论整理。
首位演讲嘉宾为清华大学计算机系教授、中科院院士张钹,他的演讲主题为《人工智能与知识图谱》。张钹教授表示,进入深度学习时代,技术的门槛变得很低,例如对于一些创业公司,掌握好数据和算法就可以进入一个行业。但是现在大家发现深度学习并不那么好用,它的缺点很突出,一是系统非常脆弱、容易受攻击等,存在不鲁棒性、不可解释性,这是其本质缺点。他表示,一是我们使用的原始数据质量差,二是系统不能学出有语义的特征。
他举了一个形象的例子,将一张阿尔卑斯山的图片加上噪声,加噪声之前和之后,人类看起来没差别,但计算机就把加噪声之后的图片识别成了狗,这说明这样的系统非常脆弱,和人类视觉系统完全不同。这样的系统存在极大的问题,所以我们提出后深度学习时代。
张钹教授表示,人类的优点是在大是大非前非常明确,虽然会犯小错,但不会犯大错,但机器与人相反,虽然不会犯小错,但一犯就是大错。
他表示,后深度学习时代,应该努力克服深度学习存在的问题。我们需要将知识驱动和数据驱动相结合,进行多学科交叉研究。而我国目前的研究现状如下,研究机器学习的人很多,但很少有人研究知识表示和推理。他表示,科学研究必须强调多样化,我们应该重视知识表示和推理,这是人工智能最核心的内容。
随后,他提到如何把知识图谱嵌入向量空间,「现在的很多方法看起来都不太理想,问题是在投射的过程中要尽量少丢失语义。当数据很大的时候很难做到。」
他表示,从人工智能的观点来看,IBM Watson 真正把知识推理和数据结合起来了,是非常好的研究工作。
从人工智能的角度看知识图谱未来的发展趋势,张钹教授表达了如下观点,我国必须要建立大规模的知识库。他表示,美国现在已经做了很多相关工作,我们如果想要靠别人的数据库、知识图谱,很难发表创新性的、有见解的文章。
第二位演讲的嘉宾是明略科技首席科学家、路易斯安那大学教授、IEEE/AAAS Fellow 吴信东,他的主题是《大数据,大知识,大智慧》。
吴信东教授表示,每个人对大数据的理解都不一样。大数据的核心问题是多维数据问题,会遇到很多困难,比如在数据的来源不一样的时候,例如如何进行数据融合,如何去寻找和添加不存在的知识。
对于大数据有两种理解方式,一是常规意义上的大数据,二是将本来不是大数据的信息变成大数据,这就需要找出大数据的底层特征。大数据最底层特征有四个:
1.大数据不是指数据的体积大,而是数据多元,有声音、文本、表格、不同的语言等;
2.每个信息来源自治,数据是异构的,都有自己的逻辑,不同来源的信息会可能会产生矛盾、断层现象。这就和盲人摸象、小马过河一样;
3.大数据的体量是巨大的,每个数据讲的可能是某件事物不同的方面,可以把它们进行融合;
4. 数据是变化的,观点在变,内容在变,信息也在变。
想做大知识,必须要考虑到知识的体量是巨大的,要从大量的知识里罗列出有质量的知识,从量到质、从质到序。从量到质是指要从大量的数据里面找出对自己有用的数据,从质到序是指根据需求使用数据,正如知识是一样的,但是每个人学习的途径不一样,根据个人需求进行学习。
他表示,在大数据、大知识之后,就是机器学习。我们用数据挖掘获取知识,一般来说,数据获取和数据挖掘要花掉大约 3/4 的时间,数据一旦变化时,是重做还是更新,如何进行融合等都是数据挖掘所面临的挑战。
第三位上台演讲的嘉宾为阿里巴巴达摩院高级算法工程师周畅,他带来了图表示学习在阿里的相关应用。
开场伊始,他提到图表示学习在阿里的如下应用:账号匹配、反作弊、推荐、金融风控、搜索广告、NLP、知识图谱。随后,他提到目前在工业界中比较主流的两大类方法:
一是 Skip-Gram+Random Walk,类 DeepWalk;二是 Sampled GCN,类 GraphSage.
他提到与业务比较相关的应用——用户对齐,也讲解了他们在 ICDM2018 上的文章。
这一系列介绍之后,他讲到图嵌入在推荐召回中的应用。
一是店内,这里谈到他们 2016 年的相关工作,在 item-item 图上的初试。他们修正了 DeepWalk 在 Random Walk 时更新的非对称概率的问题,店内 Ctr 稳定提升 10% 以上。
二是全网,这里涉及到集团其他团队工作。如首页个性化推荐,这是在 KDD2018 上的研究工作,他们加入了 Side-Information,进行了精致的数据预处理;还有阿里妈妈搜索广告,这里用 metapath GCN 来处理 Query、Item、Ad 的异构关系。
他们目前正在进行的工作是算法生成的内容化推荐。他表示,目前的推荐是被动响应式,很难做出发现性。如何将内容化、知识化的推荐构造成主动推送式,他提到如下四点:首先理解用户是什么样的人,其次是内容聚合,再是分析出用户会对什么样的概念、知识感兴趣,最后是如何打动、说服用户。
对于用户是什么样的人,可以通过 User-Item 二部图构建 User/Item Embedding;针对内容聚合,通过 Item Embedding 进行层次聚类;在分析用户对什么知识、概念感兴趣时,可以用到 tree-based user interest mining;针对如何打动、说服用户,可以找到一个解释(路径),能说服用户对这个主题感兴趣,说服方式有多种,如标题/短标题,知识卡片。
最后,他提到目前 Graph Learning 的挑战。
一是计算效率与效果
大规模属性图中负样本选取方式对结果非常敏感,启发式的方法 vs 对抗式的方法
如何提高采样效率,如何增量训练
Hierarchical 的图表征学习
二是动态图建模
主要的挑战是如何处理图中边的时序关系
三是异构图的表达能力
Multi-Type/Multi-Edge 的图如何学出更好的表征
四是多任务/迁移学习
图结构如何迁移
而系统层面的挑战主要有如下三点:
一是采用 Sparse 的图计算系统,或 Dense 的机器学习系统,或采用两者结合的系统?应该采用何种编程思路。
二是相比于其他机器学习模型,存在着大量不规范的参数读写模式。
三是种类多,属性复杂的异构图打 Batch 困难,难以利用 GPU 优势。
最后,他提到他们的全景图,最下层是 Graph Engine,上面一层提供数据服务,更上一层提供算法服务,最上层是业务解决方案。
随后进行报告的嘉宾是武汉大学信息管理学院副教授洪亮,主题是《股权网络视角下的金融知识图谱研究与平台》。
他表示,智能金融在智能投研、智能风控、商业股权查询平台和智能监管上应用广泛。目前,很多银行、保险、证券、信托、支付、监管、消费金融、信用评级、互联网金融和基金公司都会用到智能金融。知识图谱构建了实现智能化应用的基础知识资源,但目前的金融知识图谱还存在很多问题,现有的金融知识图谱数据零散,需要进一步融合;缺少基于金融股权网络的金融知识图谱;缺少系统性金融风险监管平台。
他进一步提到,从股权视角来看,抓住金融股权关联,就抓住了系统性金融风险形成与传导的根源。目前,金融行业面临着金融体系主体繁多、股权网络庞大、结构复杂等难题,但他们有自己的优势,他们有国内 400 多家商业银行的股权信息,在工商银行也有超过一亿三元组信息数据。金融知识图谱有助于实现股权「穿透式」监管,协助金融主管部门进行系统性金融风险的识别、防范与化解。
基于金融知识图谱,洪亮副教授团队建立了知融金融大数据平台。和商用股权查询平台不同的是,它可以进行股权网络结构分析,可以进行金融知识图谱查询与分析,防范和化解系统性金融风险。
在算法上,他们主要采用的有:Top-K 控制权路径查询,从直接股东出发,结合工商库数据查找第二层股东,递归查找,直至最终股东;最终股东持股比例采用的是稀疏矩阵计算法;同时也使用了视图缩放的交互式资本系图摘要算法。
他表示,智能金融的入口是金融本体。团队采用基于知识图谱的 RDF 数据管理,提供面向学术界、监管部门的数据服务接口(API)。
未来,团队的目标是实现对金融体系的大数据完全覆盖。接下来将进一步深化金融知识图谱的管理与分析,主要涉及的方面是:大规模金融知识图谱的自动构建与高效管理;控制权网络、资本系;股权网络的风险传导动态模拟;集成分析:系统性风险防范与化解。
第五位上台演讲的嘉宾是东南大学教授、博导漆桂林,他的报告主要围绕知识图谱以及知识图谱的表示、推理、未来发展展开。
他表示,知识图谱是一种语义网络,即一个具有图结构的知识库,这里图的节点可以是概念,可以是实例,可以是 literal,图的边就是一个关系。
从知识表示的角度看,目前的研究存在很多问题,如如何用知识图谱表示事件,这里存在的问题是,事件可能存在关联以及因果关系,此外,目前关于事件表示没有特别多的相关研究。
另外他还举了一些代表性问题,如时空知识如何表示,什么可以成为知识图谱中的节点,知识到底是静态还是动态,图表示是不是最好的表示知识的方法。
他提及,大家的研究不能太单一,如只做数据库。
关于知识图谱的表示,他用图例进行了形象说明,包括 RDF、literal、OWL、知识图谱嵌入、基于上下文的表示学习等。
对于知识图谱的推理,他提到逻辑方面的推理和统计方面的推理。在关于统计方面的推理上,他表示 Path-based reasoning 和 knowledge representation learning 这两方面值得关注。他提到他们开发的一些规则引擎(0 型、1 型、2 型、3 型),目前 2 型的性能是万级规则、十万级本体、秒级速度,其他三类的性能是万级规则、毫秒级速度。他表示,当到万级规模时,无论管理还是推理都比较麻烦。随后,他也提到这些规则引擎的应用场景,0 型可以用在疾病诊断、知识表示和推理,1 型已经用于国家 863 项目、高考机器人、地理知识表示和推理等,2 型可以用于疾病诊断、知识表示和推理,3 型可用于多模态人机交互中的交互知识表示和推理。
演讲最后,他总结到,我们应该更强调对知识图谱的表示,我们需要了解本体,包括 RDF、RDFS,另外,不应该把自己的研究限制得太窄,例如可以把图像考虑在内。他表示,推理有很多应用,例如做问答和辅助决策,逻辑推理并不像大家想的那样,实用性比较差。统计推理目前在知识图谱推理里的应用更多是做问答和推荐,如果用来做决策和知识库补全,不是特别适用。
第六位嘉宾是北京大学教授、大数据研究院自然语言处理与认知智能实验室主任赵东岩,他的报告主题是《基于知识图谱的文本语义理解及其智能应用》。
他表示,目前,研究类人智能技术的团队有很多,如 MIT 人工智能实验室、IBM Watson、Todai Robot、DeepMind、Google 问答搜索引擎团队等,文本语义理解是这项技术中非常重要的一个方面。
机器是如何做到语义理解的?以高考机器人技术研究为例,有四个步骤:
构建基础语义资源库及深度语义分析技术平台;
研制大规模知识库构建技术,构建学科知识库;
提出语义与知识表示方法、研制深度语义理解技术;
实现面向初等教育问题求解的知识推理。
从技术上来说,就是将自然语言问题解析为与知识库关联的结构化查询语句。
他提到如下三个研究方向:
第一个方向是知识图谱的构建,主要研究如何从开放域网络信息资源中萃取以实体及实体间关系形式存在的知识条目,并据此构建以图模式存储的结构化语义知识库。
第二个研究方向是语义理解与问题求解,也就是基于大规模结构化知识资源的语义分析与理解。
第三个研究方向是答案生成,也就是自然语言答案生成。
目前,他们已经使用大规模异构知识资源的语义网络构建了庞大的技术构建语义知识库,如地理因果逻辑知识库,他们从地理教材、百度百科和中文维基百科得到 13.49 万地理因相关的因果逻辑关系条目,组成地理因果逻辑关系知识库。解答问题使用了基于地理因果关系资源的排序方法和基于多通道卷积神经网络的排序方法。他们也能融合多种知识资源进行事实类问题的求解。其中,基于多通道 CNN 的解答器具有加宽卷积神经网络结构,最深处有 14 层,有 将近四百万个神经元节点,两千七百多万个网络参数。
未来,他们还想做智能对话系统,希望领域自适应对话系统可以完成检索式对话、生成式对话和多轮及主动对话技术。
第七位上台嘉宾是华为公司中央软件院知识图谱首席技术专家贾岩涛,他的演讲主题是《企业级领域知识图谱构建及其应用》。
他的分享分为四个方面,一是知识图谱的背景,二是领域知识图谱的构建,三是领域知识图谱的应用,四是领域知识图谱的挑战。
知识图谱最早由 Google 于 2012 年提出,它是谷歌对其索引的所有事物、任务和地点,例如地标性建筑、名人、城市、球队、大楼、电影、艺术品等构建的关系网络。知识图谱从本质上讲是一个图结构,由节点和边组成。
知识图谱的构建历程如下,先是人工构建、服务于人,随后是算法构建、机器可理解。
他具体讲到通用知识图谱和领域知识图谱的构建,通用知识图谱常用于搜索领域,为搜索提供丰富的查询结果,领域知识图谱是聚集在某一特定领域的知识图谱,服务于特定场景。
他表示,领域知识可以划分为四大类,事实类、概念类、过程类、主观类,并详细描述了这四类领域知识。领域知识图谱的构建思路如下:先是领域知识建模,随后进行数据采集、清洗、转换,接下来进行知识抽取、融合,随后是知识存储、知识计算等操作。
他们在领域知识抽取上也有若干工作,介绍如下:
预定义事件抽取。这一工作发表在 EMNLP2018 上,传统事件抽取利用句子级信息独立预测多个事件,忽略了事件之间的依赖关系,他们提出了联合句子和篇章信息的多事件协同抽取方法——基于层次标注神经网络和门控多层关注机制的多事件协同抽取。
关系融合,这是与爱丁堡大学合作的一篇工作。关系之间存在蕴含关系发现,是问答系统等上层应用的基础,现有的基于上下文的关系相似度的学习方法,无法处理数据稀疏问题,他们提出 cross-graph 与 inside-graph 相结合的蕴含关系发现方法。
在报告最后,他谈到知识图谱的三个应用以及三个挑战。目前知识图谱可以应用在智能搜索、智能问答、智能运维领域。三个主要的挑战如下:一是如何将专家经验进行知识化,二是如何自动构建知识体系,三是如何做好语音、视频、图像等多模态的全联结。
第八位演讲的嘉宾是复旦大学计算机科学与技术学院教授肖仰华,他主要探讨机器语义理解的挑战与未来,以及如何利用知识图谱进行语义理解。
他表示,人类之所以成为万物之灵,是因为其具有语言能力。机器是否具备语言能力?由于机器不能自动理解数据,因此目前的大数据并没有被充分的利用。机器缺乏行业知识,所以不能理解文本和数据。当机器具备语言能力时,才能真正产生能为人类服务的人工智能,而不是「人工智障」。
目前的机器语言理解存在两方面困难。
第一个困难是,语言具有歧义性、关联性和抽象性,同一个短语在不同的语境下意思可能大相径庭。
第二个困难是,语言表达具有多样性,同一个事物可能有一百多种表达方式。
知识图谱是解决机器语言理解问题的一个方法,他也提到了一些创建方法。在他的研究中,用了两类常见的知识图谱:一是概念图谱,是通过互联网里面的语义模式获取的,采用了协同过滤等算法;二是涵盖各种事实的知识图谱。
他随后提到,机器对语言的理解涉及到很多方面,包括短语、单词的集合、对象的集合、不同的类别、不同的动词结构以及问题等等。理解语言需要将文本里面的对象和知识库里面的对象关联起来。短文本的理解非常困难,如输入一段话,为了让机器产生相关的概念,必须做两个工作:区分出正确概念和错误概念,找出信息量更大的概念。
最后,他总结道,得益于知识图谱,机器可以做很多语言理解方面的工作。但目前,机器语言理解是基于统计模式的匹配,并不是真正意义上的理解。机器语言的理解还处于初级阶段,未来还有还有很多难题需要科学家去解决。
至此,精彩的报告圆满结束,各位演讲嘉宾,或从学界角度,阐述了知识图谱的理论、挑战以及未来发展,或站在业界的角度,探讨了知识图谱的使用场景,以及在工业上的应用。相信在未来,我们将会看到知识图谱更多技术上的革新与应用。
雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。