知识图谱助力智能问答和精准检索的实践应用
金融行业因其与数据、文本的高度相关性,成为人工智能最先应用的行业之一,而作为人工智能技术重要研究方向和组成部分的知识图谱技术正快速进入金融领域,并日益成为智能金融的基石。
基于金融知识图谱的智能问答机器人、精准检索未来将可能作为一种核心能力应用于多个智能金融应用场景中,这些应用场景包括:智能投研、智能投顾、智能风控、智能客服、智能监管、智能运营等。
智能助手服务框架
如上图所示,智能助手服务框架为:从新闻、财报、研报各种行业网站等获取大量数据、信息、知识形式的“素材”,通过语义分析构建成知识图谱,并提供高级语义搜索引擎、智能问答、交互式知识管理系统、文档(知识)协作系统,以对金融知识进行更加有效的管理、搜索、使用。
语义搜索、智能问答是NLP的关键技术,目的是让用户以自然语言形式提出问题,深入进行语义分析,以更好理解用户意图,快速准确获取知识库中的信息。在用户界面上,既可以表现为搜索引擎的形式(语义检索)、也可以为问答机器人的形式(智能问答)。
语义检索项目架构
如图所示,这里的语义检索采用了ELK架构,即通过将知识图谱作为日志源输入,然后通过一系列管道将知识提取成前端可读的文本,在通过日志分析索引elasticsearch得到一个提炼结果,最终可以通过kibana提供的可视化分析界面进行分析。
语义检索实例
搜索得到的信息还可以经过加工后分门别类,如图4所示,负面消息汇总、热点事件、并购事件、公司公告、研究报告、公司上下游、行业规模等等。
问答机器人
问答机器人(智能问答系统)一般包括问句理解、信息检索、答案生成三个环节。问答机器人与金融知识图谱密切相关,知识图谱在语义层面提供知识的表示、存储和推理,问答机器人则从语义层面提供知识检索的入口。基于知识图谱的问答机器人相比基于文本的问答更能满足金融业务实际需求。
问答机器人的实现有很多案例,例如siri和微软小冰,但是普遍的效果都不是很好,这个原因来源于他们是通识性的智能助手,需要识别的语义实体太多,难以做到多轮对话、语义消歧的作用,如果只做行业的助手,那么准确率会大大提升。
问答机器人运行流程
智能问答机器人效果展示
问答机器人内部原理
问答机器人的技术特点在于对问题(Question)和给定内容(Context)进行编码(encode),并从中解码(decode)出答案,如图7所示,即对搜索内容(Query)和搜索对象(Context)进行编码,从中解码出关关键词(Query)出现与否以及关键词的出现位置。
而问答机器人常采用的词袋矢量方法具有局限性,因为对于某些重要的单词,通常没有单词向量,例如特定领域的术语或常见的拼写错误。如果用户使用的是非英语语言或非正式语言,则尤其如此。所以,智能问答对新嵌入的pipe不使用预先训练的向量(训练分类器),而是通过学习意图和单词的嵌入,即,使用Bi-LSTM+CRF的方法进行序列化标注,这些嵌入用于对输入句子和所有意图之间的相似性进行排序。 这意味着不会受到开箱即用的预训练单词向量的困扰,而是专门为特定的域学习自己的单词。
智能问答和语义检索的价值在金融领域越来越被重视。它主要应用的场景包括智能投研、智能投顾和智能客服。在智能投研领域,投研人员日常工作需要通过多种渠道搜索大量相关信息。而有了金融问答和语义检索的帮助,信息获取途径将是“Just ask a question”。并且,语义检索返回的结果不仅是平面化的网页信息,而是能把各方面的相关信息组织起来的立体化信息,还能提供一定的分析预测结论。在智能客服和智能投顾领域,智能问答系统的应用主要是机器人客服,机器人客服目前的作用还只是辅助人工客服回答一些常见问题,但已能较大地节省客服部门的人力成本。
通过知识图谱,我们可以更好的为业务场景服务,使用更加丰富完备的知识进行交易。