机器不学习:爱奇艺视频场景下NLP应用与文本舆情分析(2)
摘要:自然语言处理(Natural Language Processing,简称NLP)是人工智能的一个重要分支,它研究能实现人与机器之间用自然语言进行有效通信的各种理论和方法,即让机器“懂”人类的语言。
爱奇艺是一家以科技创新为驱动的娱乐公司,致力于为用户提供丰富、高清、流畅、和智能化的专业视频体验。
在爱奇艺的视频场景下,自然语言处理的使命即是让机器更好地理解娱乐相关的视频/图文内容,从而为用户提供智能化的服务。
本文简介爱奇艺自然语言处理团队专注在哪些nlp课题以及取得的进展,并举例说明我们的使用场景。
一.引言
NLP涉及的面非常广,包括语音识别 / 合成、信息检索,信息抽取,问答系统,机器翻译、对话系统等。
在爱奇艺,自然语言处理团队专注于以下7个方向:
1.词法分析和知识图谱
2.打标签(Tag Recommendation)
3.查询理解
4.热门事件发现和聚合
5.语音助手
6.舆情分析
7.电影票房和电视剧VV(video view)预测
从而实现更好地理解视频/图文内容,用户的搜索意图和用户的评论,为搜索、推荐、广告、社交、舆情监控的智能化提供基础服务和技术支持,并探索nlp的直接应用业务。
二.词法分析和知识图谱
我们的词法分析作为文本分析的基础服务,已广泛引用于多个亿级流量的业务线。
图1:词法分析平台
图1显示了现阶段的词法分析功能:
分词、词性标注、词权重、新词发现、实体识别/链接功能等,采用的技术主要包括CRF、L2R、CNN、CNN+CRF、LSTM+CRF。
其中,实体识别是词法分析中的重点也是难点。除了通用的人名、地名、组织机构名的识别,我们还特别关注娱乐领域的影视剧名、游戏名、文学作品名、游戏解说名等的识别。
上述的娱乐领域的实体识别挑战较大,主要包括:
1. 目前工业界和学术界还鲜有相关工作的介绍。
2. 实体本身的规律性弱。任何一个词都有可能是实体的一部分,例如“杀破狼”、“西游记之孙悟空三打白骨精”等;
3. 实体词与实体词之间、以及实体词与普通词之间的歧义性大,如电影“十二生肖”、“功夫”、“长城”、电视剧“解密”,既是普通名词也是实体词,“非诚勿扰”即可能是电影,也可能是综艺或普通词。
4. 缺乏训练语料
我们首先在训练语料的准备上做了大量的工作,包括:
(1)使用启发式规则自动构建了100万句弱标注的视频语料。
(2)人工方式标注了几万句的精准标注的视频语料。
在实体词典的构建上,使用数据挖掘技术实时地从全网挖掘影视剧名/角色名/艺人名/游戏名等领域词典。
算法上不仅在传统的CRF模型上做了很多的尝试,也在深度学习方法进行了一些探索。CRF vs. CNN vs. LSTM等对比实验表明,如图2所示的双层CNN+CRF模型获得较优的性能。在2个不同的测试集上,我们的模型对剧名识别的f-score分别是82.1%和72.6%。
实体识别/链接服务除了作为底层的nlp基础服务应用于各业务线,我们也开发了多个直接应用业务。
1.通过实体识别进行泡泡圈子的内容分发:即从图文/视频/图集中的文本中准确地识别明星、剧名;对识别出的明星、剧名按照和内容的匹配度进行重要性打分、并根据重要性将内容自动分发到对应的明星圈子和影视剧圈子。
2.通过实体识别将feed流中的视频和电影票(图3左)、游戏(图3中)、电商(图3右)、漫画和文学等垂线业务进行关联。可在不损伤用户体验的情况下,提高对垂直业务线的导流,进而实现一键购买电影票、下载游戏和下单电商等。
图3:基于实体识别/链接的feed流视频与垂线业务的关联
在视频领域知识图谱,我们可以分析出视频与视频、视频与人、人与人,人与视频的关系。再结合精确的语义分析、实现了用户查询的精确回答(图4)。未来我们还要继续挖掘游戏、文学等更多垂直领域的实体属性和实体关系。
图4:基于知识图谱的问答系统
三. 打标签
标签是从对内容(视频、图文、或图集)的描述(标题、摘要、或正文)中提取可表示内容的一种元数据(关键词或术语)、有助于更好的个性化内容推荐、更高效的内容编辑。
标签可以是一个封闭的预定义分类体系(我们称之为类型标签),也可以是从内容中提取的开放的关键词集合(内容标签)。
标题 范爷辣眼睛新街拍, 难道减肥真的可以无止尽吗?
内容标签 范爷 (http://www.iqiyi.com/lib/s_200044305.html)街拍 减肥
类型标签娱乐 明星 内地
表1:视频描述(标题)及其类型和内容标签
类型标签采用的是基于SVM的分类算法,特征包括字的n-gram、词的n-gram、主题语言模型特征、词典特征等。
传统的内容标签抽取方法分二步走:
1.基于启发式规则的候选标签生成。
2.基于无监督(TextRank,ExpandRank)或有监督(Maui,CeKE)算法的候选打分,并输出概率最大的作为系统标签。
按我们经验和对业务的了解,我们将基于打分或者分类的内容标签任务转化为一个序列标注任务,并采用CRF模型。该算法具有:
01.可以抽取任意长度的词组作为标签
02.不再需要单独的候选抽取模块
03.可以获得最佳的性能
目前、标签服务已经应用于视频推荐、爱奇艺头条、泡泡、视频编辑等业务等。
四.查询理解
查询理解包括个性化的默认搜索词、查询补全、查询纠错和查询分类等。
其中个性化的默认搜索词是在用户发生搜索行为前,通过用户在爱奇艺的历史行为猜测用户可能感兴趣的query。其本质是一个推荐系统,方法是计算用户画像和query的相似度。优秀的个性化默认搜索词可以增加用户黏性,提高用户体验,进一步地引导用户行为。
查询补全是在用户发生搜索行为的过程中,通过用户不完整的输入(我们称之为token)与query的匹配度,query的点击量、专辑与否、freshness等提示用户一些可能感兴趣的query,提高搜索效率。
五.语音助手
我们的语音助手已落地在爱奇艺VR一体机和爱奇艺APP上。通过VR语音助手,可以实现和VR一体机的虚拟女友Vivi进行40多种交互,包括视频播放/搜索、天气查询、和Vivi的互动、VR设备设定(亮度调高、音量调低)等。
在APP里,语音助手可实现便捷地购买VIP会员(我要买爱奇艺VIP会员),下载游戏(我想下载爱奇艺斗地主游戏)、直接观看电视剧的某一集或电影等。
图5:APP上的语音助手
语音助手简单来说,即是把用户说的话(utterance),转换为结构化的语义表示,从而执行相应的动作(action),分为如图6所示的3个大模块:语音识别、语音识别纠错、语义解释。
语义解析模块又进一步分为意图分类(intent classification)和要素抽取(slot filling)。
需要说明的是,第二节介绍的词法分析,特别是影视剧名识别,和第四节介绍的基于爱奇艺全网搜索的查询纠错让我们的语音助手鲁棒性,特别是在影视娱乐、游戏领域得到较大的优化。
图6:语音助手框架图
六.舆情分析
舆情分析可直观反映观众对剧和艺人的关注焦点和态度,为版权方和自制剧的内容运营、内容营销策略制定、营销趋势把握提供参考。
我们使用自然语言处理中的句法分析技术,从UGC内容(用户评论、弹幕、泡泡圈子)中抽取评价对象、评价词以及情感色彩,从而形成对用户观影评论、社交互动的多维度结构化舆情分析。
图7是对电影“战狼2”从视觉效果、场面、演员三个维度的舆情分析结果。
图7:电影“战狼2”的部分舆情分析结果
带情感的热词分析效果可以访问爱奇艺指数网站http://index.iqiyi.com/,其中词的大小反应提及频度, 词的颜色反映情感色彩。
七.电影票房和电视剧VV预测
无论是票房还是VV的预测,都面临很大的挑战,包括:
01、提前时间长(提前1年 / 半年等), 可获取的信息有限
02、上线前影响因素较多 (如同期影片、突发事件)
03、训练样本少(少于1000部)
04、站内外多个数据源的数据融合、清洗等
基于大数据和机器学习算法,我们对电影票房、电视剧VV(video view)、综艺VV等提前60天、180天、360天等多个时间窗口预测,为版权剧采购立项、自制剧立项、广告售卖等提供科学的数据支撑。
为获得较好的性能,我们在数据清洗和特征工程上做了很多尝试。最后采用了包括时间类, 题材类, 播放平台和方式类, 指数类, ip类, 前作类、趋势类等100多维特征、并对丢失特征的补全和部分特征的变换。
模型上对比了线性模型, SVM, 随机森林, GBDT, DNN, stacking集成方法等。
在最近的90部版权电视剧上最优的R2准确率为85%。vv超10亿的头部剧预测误差在30%以内的占67%,误差在50%以内是100%。
图8是部分剧的预测vv与真实vv的比较。
图8:部分头部版权剧提前180天、60天
预测值和真实值的对比
八.总结
基于用户弱标注和人工精准标注数据、使用机器学习和深度学习的自然语言处理技术更好地理解视频、理解用户,从而让搜索、推荐、数据挖掘更智能,为用户提供智能化的专业视频体验。
接下来,我们要进一步优化上述功能模块,并拓展在视频场景下的更多应用。
在算法上,将进一步探索更有效的深度学习模型、文本和图像的融合、迁移学习等提高系统的性能。