专家系统到大数据知识工程,千人计划专家吴信东为数据冠以知识
近日,机器之心采访了明略数据首席科学家、科学院院长吴信东教授,吴教授一直专注于知识工程方面的研究,并从专家系统到大数据时代经历了技术的变迁与发展。在本文中,我们将着重介绍专家系统及大数据环境下的知识工程,它们的共性是从专家或数据中提取知识,并用于进一步的推理与预测。吴信东教授在10月15到16号的AIIA人工智能开发者大会将会更详细地介绍大数据知识工程。
吴信东教授是国家“千人计划”特聘专家、长江学者、IEEE & AAAS Fellow,他早期关注于专家系统,也就是知识工程的应用实践。而随着机器学习与大数据的流行,他领导的科技部重点研发项目BigKE将“大数据”引入了“大知识”。整体而言,大数据知识工程(BigKE)也就是从多种异构数据源抽取碎片化的知识,并将这些知识融合为整体以提供进一步的知识服务。
专家系统
专家系统,即从领域专家获取知识,并将这种知识迁移到计算机系统以自动实现某些专家能力求解的功能。对于基于专家系统的知识工程,其可以定义成为对应用问题求解所进行的知识的获取、表达和推理。它主要包含三阶段,首先知识的获取就需要与领域专家交流,并获取专家在该领域解决特定问题的知识。其次需要将获取的知识表达出来,这一般是形式化的表达,例如用逻辑表示和知识图谱表示等。最后需要基于这种表示对问题进行求解,也就是进行知识推理。
吴信东教授表示目前其实还有很多解决方案在实践中会使用专家系统,只不过它会作为大系统的组成部分,其它如计算机视觉、深度学习和知识图谱等组成部分可能更加引人注意。此外,专家系统完成的任务相对于端到端的方法会更宽广。例如深度方法更擅长识别和分类等任务,它关注非常精细的决策。而专家系统会尝试解决整个领域需要专业知识的决策,它可能会涉及多种任务。
正如吴教授所说,专家知识在各种系统都充当着非常重要的作用,不论是针对特定领域问题还是大数据。例如对于机器学习来说,很多时候先验知识都是一种专家知识,而卷积神经网络等新型模型同样也应用了专家知识,因为我们假设了图像等二维数据只有在局部才是相互影响的。
但是纯粹的专家系统却有很多局限性,它无法兼容当前的大数据环境。首先大数据具有三大显著特点,即海量数据、数据质量参差不齐、个性化属性,这些都是传统专家系统无法解决的,因此也就有了吴教授负责的国家重点研发计划重点专项项目----大数据知识工程(BigKE)。
大数据知识工程
在大数据时代, 如何利用知识工程的思想和方法获取、表示、推理和解释大数据,并将挖掘出的知识形成解决问题的大知识系统,这就是大数据知识工程(BigKE)最希望完成的目标。
相比于传统专家系统,基于大数据的大知识系统更关注提取各种数据中的碎片化知识,并与领域的专家知识相结合而构建整个系统。大数据知识工程降低了对专家知识的依赖性,并希望从碎片化的信息中抽取群智知识。吴信东教授表示,从整体而言,BigKE可以分为三阶段,即多源异构数据中的碎片化知识建模、从局部知识到全局知识的碎片化知识融合、个性化知识导航。
包含三阶段的BigKE框架,第一阶段通过在线学习对碎片化知识进行建模,第二阶段实现非线性知识融合,第三阶段按需求提供知识服务。
碎片化知识建模
BigKE首先会采用合适的模型对各种数据类型进行建模,相当于从非结构化数据中抽取结构化的知识。这一建模过程主要会采用在线学习的模式,即持续不断地一点点学习不同的知识碎片。此外,从多种数据源中抽取的碎片化知识对评估数据的可靠性和数据质量有着重要的作用。如上所示,BigKE会同时考虑数据流与特征流,而对流数据的处理需要选择动态模型来刻画数据特征,因此动态的知识提取是非常重要的方面。
在线学习继续向后输出具有语义信息的特征,而数据的可靠性同样也会在后面得以评估。之所以需要评估,主要是因为我们无法对所有数据进行建模,而且不同数据来源有着良莠不齐的质量。因此我们可以对数据来源进行排序和评价,获得数据的精确度和可靠性,并在数据筛选时选择较高质量的数据。因此相比于一般的在线学习,关注特征流的在线学习不仅关注数据处理顺序,同时关注更有效和优质的特征空间。
吴教授表示对知识建模的在线学习可以是各种优秀的机器学习或深度学习模型。例如我们希望从文本中抽取出主体的属性,那么就能使用基于深度学习的命名实体识别抽取知识,而当我们希望从图像中抽取出主要物体,那么又可以使用卷积神经网络等方法抽取知识。这里不同类型的数据会有合适的方法进行处理,并抽取出我们想要的知识。
非线性知识融合
在从不同的数据源抽取必要的知识后,如何融合这些不同方面的知识就显得非常重要。为了将离散的局部知识融合为全局知识,BigKE采用知识图谱表示碎片化知识,其中局部知识可以表示为完整知识图谱的一个子图。
吴教授说:“知识图谱的整体概念比较简单,它主要包含两部分。首先第一部分是节点,节点一般涉及到概念,比如人、物体和事件等,其次是连接,它会连接不同的概念。所以从本质上来说,任何能以概念及概念间的连接来表达的问题都能视为知识图谱。”此外在知识图谱中,连接会分为显性连接和隐性连接,显性连接可以是层次关系或亲友关系等,而隐性连接为两个概念没有直接关系,但计算相似度等手段可以建立新的隐性关系。在知识图谱里加上这些非线性属性以后,能够将局部知识与全局知识更好地聚合在一起,并实现更进一步的知识推理。
BigKE采用知识图谱表示和融合局部知识有非常多的优势,首先来自各种数据源的知识有独特的属性,它们间的关系是复杂和演化的,因此传统的线性融合方法无法反映出局部知识之间的联系。而知识图谱为局部知识和全局知识提供了统一的表示形式,它们的概念都能表示成节点,而各种关系都能表示成连接。其次,知识图谱节点之间的路径可以视为不同知识片段之间的可能关联,这为个性化服务的实现提供了可能。
知识推理
BigKE的目标是根据用户需求提供服务,也就是根据已搭建的知识图谱进行知识推理。对于前面搭建的知识图谱,其节点和边分别对应于知识单元和知识之间的语义关联,而提供知识服务可以视为搜索两点之间的最佳路径。此外,吴教授表示知识推理同样可以实现个性化的推荐,并为个性化的查询提供精确的导航服务。因此针对个性化查询,BigKE会在知识图谱直接进行推断,从而预测用户可能的行为。吴信东教授将于10月15到16号在苏州国际博览中心举办的AIIA人工智能者开发大会详细地介绍大数据知识工程。
报名链接:http://www.huodongxing.com/event/3458284296300