知识图谱的定义
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。
通过知识图谱,可以实现Web从网页链接向概念链接的转变。
知识图谱的架构
从逻辑上可以划分为2个层次:数据层和模式层。
在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据构成庞大的实体关系网络。
模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。
知识图谱构建过程
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。
这是一个迭代更新的过程,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工
知识图谱有自顶向下和**自底向上**2种构建方法。
自顶向下是从百科类网站等高质量数据源中提取本体和模式信息,加入到知识库中。
自底向上是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核后,加入到知识库中。
知识图谱的构建技术
信息抽取(information extraction)
信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。关键技术包括:实体抽取、关系抽取和属性抽取。
实体抽取
实体抽取,也称命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此时信息抽取中最为基础和关键的部分。
早期方法:
启发式算法与人工编写规则相结合(Rau)。缺点:耗费大量人力,且可扩展性差。
基于统计机器学习方法:
KNN算法+CRF模型(Liu等人),实现对Twitter文本数据中包含实体的识别。
字典辅助下的最大熵算法(Lin等人),在基于Medline论文摘要的GENIA数据集上取得了实体抽取准确率和召回率均超过70%的实验结果。
开放域的信息抽取方法:
层次结构的命名实体分类体系(Sekine等人),将网络中所有的命名实体划分为150个分类。
将实体类别进行分类,并基于CRF模型进行实体边界识别,最后采用自适应感知机算法实现了对实体的自动分类(Ling等人)。
抽取具有相似特征实体,从而进行分类和聚类:
根据已知的实体实例进行特征建模,利用该模型对处理海量数据集得到的新的命名实体列表,针对新实体建模,迭代地生成实体标注语料库(Whitelaw等人)。
利用无监督学习算法,事先不给出实体分类,而是基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类(Jain等人)。
关系抽取
关系抽取技术的基本问题是,如何从文本语料中抽取实体间关系。
早期方法:
采用模式匹配来识别实体间的关系。缺点:需要对语言学领域有深入理解和认知,且工作量大,难以扩展。
基于统计机器学习方法:
利用自然语言中的词法、句法以及语义特征进行实体关系建模,通过最大熵方法实现了不借助规则硬编码的实体关系抽取(Kambhatla等人)。
借助知网(HowNet)提供的本体知识库构造语义核函数,在开放数据集上对ACE定义的6类实体关系进行抽取(刘克彬等人)。
基于Bootstrap算法的半监督学习方法,自动进行实体关系建模(Carlson等人)。
基于Bootstrap算法思想,提出协同训练方法,引入N-Gram特征进行协同训练,实现了对弱监督关系抽取模型的强化(陈立玮等人)。
基于无监督学习方法,对实体间的雇佣关系、位置关系以及生产关系等多元关系进行精准识别。(Zhang等人)
面向开放域的方法(无须预定义实体关系类型):
提出了面向开放域的信息抽取方法框架(OIE),并发布了基于自监督学习方式的开放信息抽取原型系统。该系统采用少量人工标记数据作为训练集,得到一个实体关系分类模型,再依据该模型对开放数据进行分类,依据分类结果训练朴素贝叶斯模型来识别“实体-关系-实体”三元组。(Banko等人)
在OIE的基础上,发布了面向开放域信息抽取的WOE系统。该系统能够利用维基百科网页信息框(infobox)提供的属性信息,自动构造实体关系训练集。(Wu等人)
引入语法限制条件和字典约束,采用先识别关系指示词,然后再对实体进行识别的策略(Fader等人)。
引入上下文分析技术,提出了一个支持非动词性关系抽取的OILLIE系统。(Mausam等人)
结合机器学习算法与开放域方法:
基于条件随机场的关系抽取模型(H-CRF),在目标数据集中关系数量不大且有预先定义好的实体关系分类模型可用的情况下,采用传统机器学习算法进行关系抽取,而对于没有预先定义好的实体关系模型或者关系数量过多的情况,则采用开放域关系抽取方法。(Banko等人,微软的StatSnowball模型)
当前OIE系统在关系抽取方面存在2个主要问题:
研究的重点都是如何提高关系抽取的准确率和召回率,很少考虑现实生活中普遍存在的高阶多元实体关系
所采用的研究方法大多只关注发掘词汇或词组之间的关系模式,而无法实现对隐含语义关系的抽取
针对上述问题提出的方法:
采用N元关系模型对OIE系统进行改进,提出KRAKEN模型。(Alan等人)
采用后期关系推理的方法,提高OIE系统对隐含实体关系的发现能力(McCallum)
属性抽取
属性抽取的目标是从不同信息源采集特定实体的属性信息,例如昵称、生日、国籍等,实现对实体属性的完整勾画。
将人物属性抽取问题转化为实体关系抽取问题,采用支持向量机算法实现了人物属性抽取与关系预测模型(郭剑毅等人)
基于规则和启发式算法的属性抽取算法,得到了扩展性良好的本体知识库YAGO(Suchanek等人)
从维基百科网页信息框抽取实体和实体关系信息,得到DBpedia
知识融合
知识融合包括2部分内容:实体链接和知识合并。
知识融合的目的是消除概念的歧义,剔除冗余和错误概念,从而保证知识的质量。
实体链接
实体链接(entity linking)是指从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。
实体链接的一般流程是:
从文本中通过实体抽取得到实体指称项
进行实体消岐和共指消解
在确认知识库中对应的正确实体对象后,将该实体指称项链接到知识库中对应实体
实体消岐(entity disambiguation)是专门用于解决同名实体产生歧义问题的技术。例如“苹果”可以指水果,也可以指手机。通过实体消岐,就可以根据当前的语境,准确建立实体链接。实体消岐主要采用聚类法。聚类法消岐的常用方法有4种:1.空间向量模型(词袋模型);2.语义模型;3.社会网络模型;4.百科知识模型
共指消解(entity resolution)主要用于解决多个指称项对应于同一实体对象的问题。例如“eason”,“陈胖子”,“陈奕迅”等指称项可能指向的是同一个实体对象。代表性的解决方法是Hobbs算法和向心理论(centering theory)
知识合并
在构建知识图谱时,需要从第三方知识库产品或已有结构化数据获取知识输入。
合并外部知识库:例如从百度百科,维基百科等进行知识合并。该过程主要处理2个层面的问题。一是数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要问题是如何避免实例以及关系的冲突问题,造成冗余;二是通过模式层的融合,将新得到的本体融入已有的本题库中。
合并关系数据库:知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。这一过程被称为RDB2RDF,实质就是将关系数据库的数据转换成RDF的三元组数据。
知识加工
事实本身并不等于知识,想要最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
本体构建
本体可以采用人工编辑的方式手动构建(借助 本体编辑软件),也可以采用计算机辅助,以数据驱 动的方式自动构建, 然后采用算法评估和人工审核 相结合的方式加以修正和确认。对于特定领域而言,可以采用领域专家和众包的方式人工构建本体 。
然而对于跨领域的全局本体库而言,采用人工方式工作量巨大,而且很难找符合要求的专家。因此当前主流的全局本体库产品,都是从一些特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
知识推理
知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而扩展和丰富知识网络。例如已知(A,爸爸,B)和(B,爸爸,C),可以推理出(A,爷爷,C)。知识推理的对象不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。例如已知(老虎,科,猫科)和(猫科,目,食肉目),可以推出(老虎,目,食肉目)。
知识的推理方法可以分为2大类:基于逻辑的推理和基于图的推理。
基于逻辑的推理主要包括一阶谓词逻辑、描述逻辑以及基于规则的推理。
基于图的推理方法主要是基于神经网络模型或Path Ranking算法。
质量评估
质量评估也是知识库构建技术的重要组成部分。受现有技术水平限制,采用开放域信息抽取技术得到的只是元素有可能存在错误(如实体识别错误、关系抽取错误等),需要有一个质量评估的过程。
知识更新
人类所拥有的信息和知识量都是时间的单调递增函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。
从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。
知识图谱的内容更新有两种方式:数据驱动下的全面更新和增量更新。
本文作者:网友 来源:CSDN
CIO之家 www.ciozj.com 微信公众号:imciow