AI知识小科普丨知识图谱的主要技术你了解吗?
知识图谱(Knowledge Graph),其主要作用是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。自2012年谷歌首次在其搜索引擎中引入知识图谱、2013年百度发布首个中文知识图谱之后,知识图谱就受到了越来越广泛的关注。北明智通作为行业知识图谱领域的领先者和践行者致力于帮助客户实现基于知识图谱的智能化应用。
关于知识图谱的主要技术你了解吗?小编带你一块了解知识图谱主要的7大技术
一、知识建模知识建模,即为知识和数据进行抽象建模,主要包括以下5个步骤:
- 以节点为主体目标,实现对不同来源的数据进行映射与合并。(确定节点)
- 利用属性来表示不同数据源中针对节点的描述,形成对节点的全方位描述。(确定节点属性、标签)
- 利用关系来描述各类抽象建模成节点的数据之间的关联关系,从而支持关联分析。(图设计)
- 通过节点链接技术,实现围绕节点的多种类型数据的关联存储。(节点链接)
- 使用事件机制描述客观世界中动态发展,体现事件与节点间的关联,并利用时序描述事件的发展状况。(动态事件描述)
二、 知识获取从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱,这一过程我们称为知识获取。针对不同种类的数据,我们会利用不同的技术进行提取。
从结构化数据库中获取知识:D2R。
难点:复杂表数据的处理。
从链接数据中获取知识:图映射。
难点:数据对齐。
从半结构化(网站)数据中获取知识:使用包装器。
难点:方便的包装器定义方法,包装器自动生成、更新与维护。
从文本中获取知识:信息抽取。
难点:结果的准确率与覆盖率。
三、 知识融合如果知识图谱的数据源来自不同数据结构的数据源,在系统已经从不同的数据源把不同结构的数据提取知识之后,接下来要做的是把它们融合成一个统一的知识图谱,这时候需要用到知识融合的技术(如果知识图谱的数据结构均为结构化数据,或某种单一模式的数据结构,则无需用到知识融合技术)。
知识融合主要分为数据模式层融合和数据层融合,分别用的技术如下:
- 数据模式层融合:概念合并、概念上下位关系合并、概念的属性定义合并。
- 数据层融合:节点合并、节点属性融合、冲突检测与解决(如某一节点的数据来源有:豆瓣短文、数据库、网页爬虫等,需要将不同数据来源的同一节点进行数据层的融合)。
由于行业知识图谱的数据模式通常采用自顶向下(由专家创建)和自底向上(从现有的行业标准转化,从现有高质量数据源(如百科)转化)结合的方式,在模式层基本都经过人工的校验,保证了可靠性,因此,知识融合的关键任务在数据层的融合。
四、知识存储图谱的数据存储既需要完成基本的数据存储,同时也要能支持上层的知识推理、知识快速查询、图实时计算等应用,因此需要存储以下信息:三元组(由开始节点、关系、结束节点三个元素组成)知识的存储、事件信息的存储、时态信息的存储、使用知识图谱组织的数据的存储。
其关键技术和难点就在于:
- 大规模三元组数据的存储;
- 知识图谱组织的大数据的存储;
- 事件与时态信息的存储;
- 快速推理与图计算的支持。
五、知识计算知识计算主要是在知识图谱中知识和数据的基础上,通过各种算法,发现其中显式的或隐含的知识、模式或规则等,知识计算的范畴非常大,这里主要讲三个方面:
- 图挖掘计算:基于图论的相关算法,实现对图谱的探索和挖掘。
- 本体推理:使用本体推理进行新知识发现或冲突检测。
- 基于规则的推理:使用规则引擎,编写相应的业务规则,通过推理辅助业务决策。
六、图挖掘和图计算知识图谱之上的图挖掘和计算主要分以下6类:
1、图遍历,知识图谱构建完之后可以理解为是一张很大的图,怎么去查询遍历这个图,要根据图的特点和应用的场景进行遍历;
2、图里面经典的算法,如最短路径;
3、路径的探寻,即给定两个实体或多个实体去发现他们之间的关系;
4、权威节点的分析,这在社交网络分析中用的比较多;
5、族群分析;
6、相似节点的发现。
七、 可视化技术目前两个比较常见的可视化工具是:D3.js和ECharts。
D3.js:全称Data-Driven Documents,是一个用动态图形显示数据的Java库,一个数据可视化工具,它提供了各种简单易用的函数,大大方便了数据可视化的工作。
ECharts:是一款由百度前端技术部开发的,同样基于Java的数据可视化图标库。它提供大量常用的数据可视化图表,底层基于ZRender(一个全新的轻量级canvas类库),创建了坐标系、图例、提示、工具箱等基础组件,并在此上构建出折线图(区域图)、柱状图(条状图)、散点图(气泡图)、饼图(环形图)、K线图、地图、力导向布局图以及和弦图,同时支持任意维度的堆积和多图表混合展现。