宜人贷——宜人蜂巢金融科技AI实践:蜂巢机器人
一、金融科技
金融科技:就是业内所说的Fintech。维基百科对此给出的定义是,由一群通过科技,让金融服务更高效的企业,构成的一个经济产业。Fintech并非简单的在'互联网上做金融',而是基于移动互联网、云计算和大数据等技术,实现金融服务和产品的发展创新和效率提升。简而言之,金融科技理解为:利用包括人工智能、征信、区块链、云计算、大数据、移动互联等前沿科技手段,服务于金融效率提升的产业。宜人蜂巢在金融科技的浪潮中,不仅拥有坚实的技术基础,构建了一站式智能风控服务体系并推出了许多风控方面的产品。
二、蜂巢机器人
宜人蜂巢团队于2018年正式推出蜂巢机器人。蜂巢机器人是一款智能语音对话机器人产品,它是人工智能技术领域的一个重要分支。蜂巢机器人涉及了大数据技术、云计算以及人工智能技术。主要应用于智能催收与智能客户领域,它直击行业痛点的各项功能,帮助企业有效提高转化率。蜂巢机器人的主要功能有:
- 全自动拨打:批量上传案件数据,一键启动群呼拨打计划。按需设置,自动拨打号码及重播。
- 全真人原音对话:定制化语音交互设计,各行业专业对话智能原音沟通,无感知人机对话,对话更贴近真实、顺滑。
- 机器转人工坐席:自定义意向客户规则,通话过程中达到条件自动触发,无感知转人工坐席,实时推送通话聊天记录,实现人机无缝切换。
- 支持对话打断:智能识别用户打断意图,完成用户打断录音行为,高度模拟真实对话场景。
- 客户标签分类:完成通话及转人工时,数据精准分析管理,客户类型自动标记筛选,方便人工及时跟进意向客户。
- 预测最佳拨打时间: 基于客户历史电话接通情况,由决策模型决定客户最佳拨打时间,并在最佳拨打时间尝试进行客户联系,提高客户联系率及满意度,提高还款效率。
- 对话全程录音:电话外呼全程录音, 数据统计, 客户标记, 查询试听, 音转文字, 客户资料永久保存。
- 大数据精准用户画像:基于对于客户在贷前、贷中、贷后的表现给予客户不同金额段、不同风险等级的区分及拆分,基于客户类型的划分基于不同的催收方式、催收频率、催收话术,在短信、信函、微信、催收机器人等多渠道催收方式上给予催收策略决策依据。
蜂巢机器人是一个全面的高效的智能语音对话机器人产品,在工程架构方面:整体框架为了高度的解耦合,运用了微服务框架;每个服务都是分布式开发部署,避免单点故障带来的系统瘫痪;为了存储大量的数据,系统结合运用结构化数据库和分布式非结构化数据库。在算法方面:语言识别、对话系统以及语音合成等模块,运用了声学模型、自然语言处理技术(NLP)、深度学习等人工智能技术。如下图1为蜂巢机器人的整体框架:
图1:蜂巢机器人整体框架
本文主要介绍的是蜂巢机器人主要在算法方面运用的技术以及方法。在整个蜂巢机器人中机器学习、深度学习等技术出现在每个环节。其实:整个蜂巢机器人的流程可分为语音识别(ASR)、语义理解(NLU)、对话管理(DM)以及语音合成(TTS)。如下图2:
图2:蜂巢机器人主体流程
电话通道实时把用户的语音传输到ASR模块,ASR将用户的语音转识别成文本,然后NLU模块进行文本理解,识别用户的真实意图;有了用户意图,开始与用户对话,通过多轮对话来更清晰的了解用户意图,此时就需要对话管理模块的对话状态管理和对话策略的制定;最后,机器人做出最优反馈,反馈为文本应答语句,语音合成把该反馈文本转换成语音,播放给用户,至此,机器人与用户的多轮对话结束,同时完成具体的业务目标,了解了用户的同时提供了正确的服务。整个环节紧密相连,承上启下,接下来就详细介绍:
1. 语音识别(Automatic Speech Recognition):
语音识别是一种广义的自然语言处理技术。语音识别的输入就是一段随时间播放的信号序列,而输出是一段文本序列。将语音实时转换成人与机器能够理解的文字文本,为人与机器的交互做好了第一步工作,也是最重要的一步。完备的语音识别系统通常包含信息处理和特征提取、声学模型、语言模型和解码搜索这4个模块,如下图3:
图3:语音识别系统主流程
在语音预处理阶段,信号处理主要的工作是静音片段切除、分离混叠音轨、消除噪音和信道增强;在特征提取阶段主要利用MFCC特征提取方法和基于深度学习的特征表征方法来获取语音的特征提取,形成机器能够识别的数值类型数据。传统的声学模型主要是混合高斯模型(GMM)和隐马尔科夫模型(HMM),随着深度学习的成熟,基于深度学习的声学模型也得到应用(例如:结合HMM模型与DNN模型的DNN-HMM混合模型、TDNN模型以及DFCNN模型),并且效果也得到提升。最后一种端对端(END2END)语音识别处理系统也是研究的热点。
2. 中文文本纠错:
语音识别转换的文本是后续流程处理的主要信息,然而语音识别的准确率不可能是百分百,这种系统级联的不确定性会严重影响系统的准确性。为此,中文文本纠错非常有必要。ASR后文本纠错主要关注处理的是谐音字词纠错(配副眼睛-配副眼镜)和混淆音字词纠错(流浪织女-牛郎织女)。蜂巢机器人利用人工规则、N-gram模型、拼音相似度以及同义词搭配等方法来纠正拼音正确但识别有误以及因背景嘈杂引起的语音识别语句主体部分的识别错误,而在语义关联上的错误,采用双向LSTM检查,较好的解决了这类多义性句子的语义错误。
3. 自然语言理解(NLU):
NLU主要是理解ASR转换的文本,同时结合用户画像等数据来挖掘用户此时的真实意图。此模块三大功能是:领域识别、意图识别和槽位提取(如图4)。
图4:意图识别实例
NLU是将文本归一化计算成机器可以理解的语义表示。NLU可以使用语义解析或语义标注的方式获得,也可以把它分解为多个分类任务来解决。蜂巢机器人在NLU部分在冷启动阶段,采用基于正则表达式的规则方法和无监督学习的语句相似度方法来实现。随着数据的积累以及对数据标注,在用户领域识别和意图识别上采用了分类算法,例如:机器学习中的SVM以及深度学习领域的CNN和RNN。槽位提取其实是通过学习一系列标注序列数据来预测新标注序列,是一个序列标注问题,主要采用的方法是BLSTM+CRF。由于意图和槽位具有较强的关联关系,所以尝试采用同一个网络来完成意图识别和槽位提取。
4. 对话管理(DM):
用户的需求较复杂,单轮对话不能够很好的获取用户的真实意图,通过对话管理实现用户与机器人的多轮对话,机器人就能够通过询问、澄清或确认来获取更多的用户信息,从而帮助用户明确需求。对话管理的主要任务是维护用户和机器人的对话状态,并且与知识库产生信息交互,从而选择下一步最优的动作。蜂巢机器人在早期采用了基于议程(agenda)的对话管理,利用图数据库存储层次结构分明且有序的话术内容和关系,这样整个用户与机器人的对话实质上是对树的遍历,并且较容易的支持话题切换、回退和退出。随着场景的增加,用户的实际需求变得多样性,其中有些质询问题的多样性导致基于议程的对话管理过于复杂,而且难以管理。因此,结合了基于议程的对话管理和基于槽位的对话管理,在正常业务流程中使用于议程的对话管理;而在质询业务问题方面,采用了填槽的对话管理方式,整个对话过程就是一个不断填槽的过程。而整个槽位信息的获取就是NLU阶段的信息输出。在对话管理中,话术的管理利用分布式图数据库,同时采用图的遍历技术寻找下一节点以及最优问题检索的相似度重排序。
5. 语音合成(TTS):
语音合成模块是蜂巢机器人最后的一个重要模块。语音合成就是把寻找出的最优话术文本转换成语音音频通过电话通道播放给用户。语音音频主要解决发声和语气两个大问题:清晰的发声解决了用户是否听清机器人,而语气主要是让机器人更像有感情的真人。蜂巢机器人在语音合成阶段利用了拼接法,根据机器人的最优文本在语音库中找去不仅在语言学特征上,还在声学特征上也是类似的音素 。在实际的业务中,有些话术存在参数变量,这个变量随着用户的本身信息的不同而不同,所以通过拼接发很容易解决这个问题。语音拼接法虽然听起来很自然,但是在前期语音的录制和裁剪中需要花费大量人工,而且系统扩展性很差。在后期,打算利用建立基于参数的语音合成系统,它其实是一个文本抽象成语音学特征,再用统计学模型学习出来语音学特征和其声学特征的对应关系后,再从预测出来的声学特征还原成音频的过程。这个技术主要是基于统计的模型完成,现阶段主流深度学习模型。