知识图谱是机器理解世界的基础,看这三位专家如何玩转知识图谱技术!
瑞士再保险数据科学家王冠
知识图谱构建:数据、算法和架构
知识图谱在保险行业有很多应用,王冠列举了四大应用场景:一是智能交互,在客户理赔时,想知道自己的保险能不能获赔,这背后不是罗列保单上的条款就能答复的,更多的是需要将保险产品、客户数据、对话记录、医疗票据各种信息整合成知识图谱,然后通过智能客服快速反馈给客户。二是精准推荐,通过知识图谱掌握客户的数据,就可以精准推荐给客户匹配的产品。三是自动理赔,现在理赔大多是人工操作,尤其是大额保单需要人工做调查,但是通过知识图谱技术,可以查到一些历史数据得出结论,从而实现自动化理赔。四是反欺诈,面对诈保现象,用知识图谱就可以方便地找到诈保人的诈骗轨迹,写一些相应的查询语句,就可以找出常见的欺诈模式。
那么如何建立一个保险行业的知识图谱呢?这是一个非常复杂的流程,涉及到知识体系构建、知识库获取、融合、存储、推理、应用等多个环节。王冠在现场重点讲述了实体与关系的抽取算法,从非结构化、半结构化的文本数据中,通过抽取实体和抽取实体之间关系的方法构建知识图谱。王冠强调,在抽取算法中,词嵌入非常重要,实现了文本到向量的转化,只要训练出了一个向量就可以非常好地表现出中文的语义,并自动抓取到相关的词语。
信息提取工具架构
文本标准工具架构
实体识别和关系提取都是自然语言处理中非常重要的任务,王冠没有多加赘述。他表示,根据不同的场景有不少构建知识图谱的方法,实体就是节点,关系就是边,通过最短路径挖掘找到背后的关系。“目前知识图谱的应用主要集中在三大方面,分别是可视化/探索、图算法、图数据库 (关系型和NoSQL)。”演讲中他还给出了非常实用的信息提取工具和文本标注工具的架构。他特别强调有了这些设计之后,人机交互将变得更加智能,知识图谱成为数据管家,成为全流程的机器学习工具。
美团点评资深算法专家潘路
基于知识图谱的问答在O2O智能交互场景中的应用和演进
潘路首先回顾了人机交互的演进历程、智能交互的种类,然后他重点谈到,在美团实际生活场景中,如果要进行信息获取、资源查询,甚至任务型交互,那么问答系统必然离不开知识图谱。本文摘取了受限场景下的问答内容。
潘路表示,传统KBQA(基于知识图谱的问答)主要分为两大技术流派:semantic parsing和information retrieval。Semantic parsing就是将原始问句转换为机器可以理解的逻辑形式,这种形式更贴近知识图谱的存储结构,可以直接或间接进行查询。而Information retrieval则直接通过有效信息的抽取,定位候选答案,之后又有两种做法,一是利用三元组生成自然语言,和原始问句比较实现查询;一是把候选答案以及周围的路径进行编码,和原始问句编码后进行比较得出答案。
在美团的受限场景下(以点餐为例,菜品范围是限定的,供餐地点和时间也是限定的),应该选择怎样的技术路径呢?潘路表示,美团涉及的领域较多,领域之间关联较弱,并且没有足够的标注数据,还必须满足快速的领域迁移需求。是否可以借鉴information retrieval的思路,但同时又可以构造查询语句来查询图谱呢?于是美团提出了information retrieval+semantic parsing的方案,通过实体链接确定子图,之后是关系识别、槽位识别、最终生成SparQL来执行查询,每一步都可以用简单的规则冷启动,也可以上无监督或者有监督模型。
潘路强调,在受限场景中,美团面临的问题特征主要是意图空间有限、资源有限、交互轮数有限、知识外延有限。因此在这个基础上,他们提出的KBQA具备四大能力:基础属性问答、带约束的资源查询、资源信息比较以及动态属性值计算。
中国科学院自动化研究所模式识别国家重点实验室副研究员何世柱
基于知识图谱的问答关键技术
何世柱从信息表示发展历程开始讲起,他表示知识图谱是机器理解世界的基础,语言系统&知识图谱也是知识应用的奠基石,问答系统将是下一代搜索引擎的基本形态。
他介绍到,知识问答通常有两类方法:一是语义解析方法,这种方法准确率高,召回率低,能解决复杂问题,适合限定领域、限定语言表达,而且可以经验性地解决,不需要训练机器学习方法,更便于控制,便于干预。二是自然问答方法,它有更友好的交互接口,可以实现知识驱动与数据驱动的融合,但是需要较高质量原始数据和配套知识资源。