夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛

网易云音乐音乐推荐负责人肖强:AI算法在音乐推荐中的实践

网易云音乐音乐推荐负责人肖强的演讲共分三个部分:一是网易云音乐的介绍,二是AI算法在音乐推荐中的实践,三是音乐场景下的AI思考。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛


自2013年4月正式上线以来,网易云音乐凭借UGC社区、UGC歌单、精准推荐三大特色产品,成为了音乐爱好者的集聚地。

网易云音乐推荐系统致力于通过AI算法,实现用户千人千面的个性化推荐,为用户带来不一样的听歌体验。虽然与其他推荐一样,都是以用户体验为导向,帮助用户更快捷的获取资源,但是,音乐推荐有着不同的特点和难点。

首先,由于音乐本身的复杂性,要求系统要更好地理解音乐。网易云音乐的做法是利用NLP系统,通过用户在社区自发产生的内容去描述音乐,这样不用听就可以得到这个音乐的大概画像。新的音乐则利用视频、图像技术,实现音乐之间相关的研究工作。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛


第二,利用可重复消费来计算CF相似度。也就是说基于用户的可重复消费(一首歌听了很多次),来表达用户喜好,及歌曲间的关联度,包括空间位置差异性和空间方向差异性。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛


第三,音乐推荐的消费成本高,强调关联性也很强,更加要求有合适的模型去表达用户的需求。LR模型的可解释性强,但是表达能力有限。树模型,以及LR和树模型的结合,优点是可以解决部分非线性问题。大规模FTRL的优点是可以获取记忆类特征,刻画能力强。缺点是特征维度大、需要的样本量多、计算复杂。此外,还有表达能力强的深度神经网络,能学习到时序特征,刻画能力+泛化能力强的深度时序网络。 从线性模型、树模型,到大规模FTRL、深度神经网络,再到深度时序网络,网易云音乐通过模型迭代实现更精准的表达用户需求。

肖强指出,音乐消费中,因为用户需求的复杂性,很难用单一目标去衡量音乐推荐系统,往往遇到CTR & 消费时长,不是同步提升,甚至此消彼长,以及多目标问题。网易云音乐用联合训练来解决多目标问题。联合训练的优势主要有四点:一是多个目标任务在浅层共享表示,任务之间加入噪音数据,降低网络过拟合,提升了泛化效果。二是多目标任务学习中不同任务的局部极小值处于不同的位置,通过相互作用,可以帮助逃离局部极小值。三是多目标任务联合训练,模型尽可能求解多任务的共同的解决方法。四是窃听。通过联合训练,音乐的收藏率和消费时长都明显提升。

在音乐场景下的AI思考部分,肖强表示,音乐推荐要解决的是在亿万用户 * 千万歌曲 * 十万音乐人 * n种情景的四维空间的匹配问题。推荐系统的核心目标是利用人工智能提升用户体验。包括用户愿意分享音乐、愿意长时间听音乐、愿意收藏及反复听收藏的音乐、用户听过的歌曲越来越多。网易云音乐的AI推荐体系是知识图谱和统计学习、强化学习的结合,用强大的长尾发掘能力和精准的匹配能力,让用户更好的发现音乐。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛

VIPKID供需优化技术负责人沈亮:在线教育行业中视频理解的应用

VIPKID供需优化技术负责人沈亮开场指出,在线教育领域中,1V1直播视频内容是非常核心的数据之一。所以,特定领域和场景下的视频内容理解技术显得尤为重要,它能够提升在线教育企业的核心竞争力。VIPKID不仅仅是一家在线教育类公司,同时也是一家视频内容公司。每天在VIPKID平台上,产生超过400W分钟,30T的视频数据,累计高达7PB的视频内容。数据即价值,沈亮接下来的演讲主要围绕VIPKID对数据价值进行挖掘的方法,以及围绕这些数据产品化所做的尝试等内容展开。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛


视频内容理解的技术近几年非常火爆,原因有以下几个方面。首先,视频内容理解的大趋势是从人工到机器。2015年,直播开始火爆,到2017、2018年短视频的崛起,产生的数据是呈指数级增长的。直播,可以理解为PGC(专业生产内容),短视频则是UGC(用户生产内容)。UGC的内容输出量远大于PGC。对视频内容理解的技术诉求也从审核、编辑逐渐渗透到围绕内容理解的推荐产品,视频内容创作等领域。此外,产品的用户体验、内部运营效率等现实KPI指标也驱动着视频内容理解技术的发展。比如,在前些年,基本上视频推荐还是围绕用户行为、视频标签等去进行的,而现在,基本上已经过度到视频本身领域,产出的是一些不可描述的特征,或是很小一部分可检测的内容。

深度学习的兴起则是视频内容理解技术的助燃剂。传统机器学习算法下的计算机视觉/语音,研发步骤繁琐,并且对领域知识依赖度非常高,特征处理复杂度也非常高。需要领域专家+算法专家不断反复调试模型。随着深度学习的发展,基础算法模型效果得到了质的提升,比如在人脸检测、人脸识别、语音识别等领域已经超出人的水平。为视频内容理解提供基础技术支撑。因此,可以说,深度学习、产品需求的相互驱动,让视频内容理解领域慢慢渗透到产品和用户的多个方面。

VIPKID一天有接近300W分钟的视频数据。拆解来看,每天需要处理400W分钟的语音+3亿张的图片数据。在语音领域,要去做语音识别、噪音识别、语音情感识别等,在图像领域,要去做人脸识别/检测,因此挑战非常大。

VIPKID通过自研+与第三方技术厂商(如阿里云、腾讯云、亚马逊云、Face++、驰声)通力合作,建立了一整套的解决方案,包括部分脸识别、多种特定手势识别、AI看课等。
在机器审核、课程质量评估、精彩片段等项目中,核心的误召回主要是由于老师、学生的部分脸识别效果较差,VIPKID通过前后标注和优化多次模型,作为人脸识别的补充,额外多召回10%的脸部图像。

此外,VIPKID通过多种模型,对多种特定手势的检测,实现了手势的检测和分类。通过机器审核,使效率提升了100倍。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛


美团大众点评高级技术专家王永康:美团外卖商业变现实践

美团外卖目前用户数超过了3亿,商家数超过了360万。基于这样的背景,美团外卖也进行了广告变现方面的探索,当前包含信息流广告、搜索广告、展示广告等产品形式,CPT、GD、CPM、CPC等售卖模式,在这样的业务背后,是有一套相对完成的业务逻辑和技术手段在支撑的。

王永康详细介绍了外卖的模型演进的过程。针对电商场景统计类的连续特征较多,刻画能力较强,所以美团外卖开始用的是xgboost,为了提升迭代效果,美团外卖从xgboost转移到了lgb,训练速度提升了2倍。现在的模型迭代一般是先用lightgbm迭代上一个基础版model。

当然树模型有一些局限性,比如对序列信息的表达、对稀疏、高维的离散特征的表达相对较弱,所以会往DNN上迁移。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛

上图是外卖广告预估模型的演进。

在平台侧,主要是收入优化。在外卖的场景里有很多的多模态的信息,如图像、文本、菜品图像等,比如做菜品预估的时候,对菜品做排序,菜品图片信息就显得比较重要。美团外卖最早使用的是两段式,先用训练好的CNN网络把图像表示成Embedding,给到模型。后来直接把一个VGG16的网络做了一些简化,直接连接到模型中做end2end的训练。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛


对于文本信息,可以直接当做离线特征喂给模型,也可以pre-train好的word的Embedidng喂到模型,或者在模型结构上对文本序列接一个LSTM。

对于序列特征,不同的行为串联不同的实体可以产生不同的序列,例如“点击”的“POI”序列、“下单”的“图像”序列等等,不同的序列能够捕捉用户不同的行为、语义、视觉偏好,可以直接把ID序列喂给模型,或者采用表示学习的方法对ID学习Embedding表达,将Embedding序列输入模型,更上层的可以做一些Pooling、Similarity、Attention操作等。

在多目标学习中,外卖的场景涉及到曝光、点击、下单、以及下单金额的问题,所以相应的模型就会去预估ctr、cvr、price。在传统预估CVR的时候,训练样本用的是点击+转化的数据,是看不到曝光数据的,预估Price的时候,训练样本用的是转化+转化金额的数据,是看不到曝光和点击数据的,而在预测的时候是一起预测,就造成了训练和预测的样本分布不一致的问题,美团外卖的方法是通过共享embedding层或者局部网络层的方式去解决。

在商家侧,会去优化商家的投入产出比。美团外卖用机器学习来解决业务问题可以分成两部分,一是业务问题如何转化成机器学习问题,二是机器学习如何优化业务问题。

夯实AI基础,聚焦行业实践---记WOT全球人工智能技术峰会机器学习实践分论坛


上图是如何根据业务设计合理的State、Reward、Action。

中间的环节相当于一个黑盒,需要用模型去建模从state到reward的整个的过程。关键的问题就是如何通过state中feature的设计,能够将中间的环节进行刻画。

相关推荐