如何高效地存储与检索大规模的图谱数据

JuTzungKuei 简书

1、概述

背景:随着互联网的发展与普及,一个万物互联的世界正在成型。与此同时,数据呈现出爆炸式的指数级增长,我们正处于一个数字洪流汹涌澎湃的新时代。

我们每天产生多少数据?据统计每天:

发送5亿条推文博客;

发送2940亿封邮件;

全世界每天有50亿次在线搜索;

一辆联网汽车会产生4TB的数据;

Facebook每天产生4PB的数据,其中包含3.5亿的照片以及1亿小时的视频。

知识越来越多,目前常见的知识图谱都是以三元组的数据形式构成。

DBpedia 有近8千万条三元组;

YAGO 有超过1.2亿三元组;

Wikidata 有近4.1亿三元组;

Freebase有超过30亿三元组;

中文百科有约1.4亿三元组。

所以,我们该如何高效地存储与检索大规模的图谱数据???

知识图谱是一个有向图结构,描述了现实世界中存在的实体、事件或者概念以及它们之间的关系。其中,有向图中的节点表示实体、事件或者概念,图中的边表示相邻节点之间的关系。

图中展示了关于刘德华的知识图谱局部示意图。图中红色字体表示概念,矩形框表示实体,蓝色字体表示属性,椭圆表示属性值,橙色字体表示关系。

概念:人物、国家、电影等

实体:刘德华、朱丽倩、中国、天下无贼等

属性:身高、体重、性别、首都、简称、上映时间、豆瓣评分等

关系:妻子、女儿、国籍、主演等

2、知识图谱的存储

知识图谱中的知识是通过RDF结构进行表示的,其基本构成单元是事实。

每个事实是一个三元组:<主语S, 谓语P, 宾语O>,其中:

主语S:可以是实体、事件、概念

谓语P:可以是关系、属性

宾语O:可以是实体、事件、概念、普通值

下面展示了知识图谱中知识表示的三元组列表。

<刘德华, 生日, 1961年9月27日>

<刘德华, 血型, AB型>

<刘德华, 妻子, 朱丽倩>

<刘德华, 女儿, 刘向蕙>

<刘德华, 国籍, 中国>

<中国, 首都, 北京>

。。。。。。

为了对知识图谱数据进行高效查询和管理,需要在存储介质上合理地组织这些数据。按照存储方式的不同,标准知识存储方法可以分为基于表结构的存储和基于图结构的存储。

2.1、基于表结构的存储

基于表结构的存储利用二维的数据表对知识图谱中的数据进行存储。根据不同的设计原则,知识图谱可以具有不同的表结构,目前可以分为五类:三元组表、属性表、水平表、垂直表和全索引。

2.1.1 三元组表

知识图谱中的事实是一个个的三元组,一种简单直接地存储方式是设计一张表用于存储知识图谱中所有的事实,就是在关系数据库中建一张具有三列的表,该表的模式为:<主语,谓语,宾语>。将知识图谱中的每条三元组存储为三元组表中的一行记录。

这种存储方式简答直接,易于理解,但是将整个知识图谱都存储在一张表中,会导致单表的规模太大,在复杂查询,或者增删改查时会有非常大的开销。

方案代表:RDF数据库系统 3store、Virtuoso

2.1.2 属性表

属性表,又称类型表,即为每种类型构建一张表,同一类型的实例放在相同的表中。表的每一列表示该类实体的一个属性,每一行存储该类实体的一个实例。

这种存储方式虽然客服了三元组表的不足,但是也造成了新的问题,大量数据字段重复,部分数据的属性值存在空值,均会造成冗余存储。

方案代表:RDF三元组库 Jena

人物

国家

电影

2.1.3 水平表

水平表每行记录存储一个知识图谱中一个主语的所有谓语和宾语。实际上,水平表相当于知识图谱的邻接表。水平表的列数是知识图谱中不同谓语的数量,行数是知识图谱中不同主语的数量。

真实知识图谱中,不同谓语数量可能成千上万个,会超出数据库上限;存在大量空值。

方案代表:早期的RDF数据库系统 DLDB

2.1.4 垂直表

垂直表是一种以三元组的谓语作为划分维度的方法,将RDF知识图谱按照谓语划分为若干张只包含主语和宾语两列的表,表的总数量即知识图谱中不同谓语的数量,也就是说,为每种谓语建立一张表,表中存放知识图谱中由该谓语连接的主语和宾语值。

这种方法用不同表之间的连接代替自连接,避免了自连接操作。但是它无法很好地支持谓语是变量的查询操作。

方案代表:SW-Store

性别

主演

首都

2.1.5 全索引

全索引,又称六重索引,是针对知识图谱数据和运算的特点提出的一种优化技术,利用知识图谱三元组的特点来构建索引。将三元组中主语、谓语、宾语的各种排列情况都枚举出来,然后为它们一一构建索引。主语、谓语和宾语的排列情况共计六种。这些索引内容正好对应知识图谱运算中带变量的三元组模式的各种可能,是一种典型的“空间换时间”策略。

这种方法不仅缓解了三元组表的单表自连接问题,而且加速了图谱的查询效率。但是也增加了更新和维护成本。

方案代表:RDF-3X、Hexastore

六张表:SPO、SOP、PSO、POS、OSP、OPS