《使女的故事》大火,AI是背后最大推手?

《使女的故事》大火,AI是背后最大推手?

作者 | Just、Rachel出品 | AI科技大本营(ID:rgznai100)

还记得大火的美剧《使女的故事》吗?

先别着急回答,这次我们不讲剧情,而要说的是这部剧背后的发行方是美国 Hulu 网站。该网站是美国第二大付费在线视频平台,以提供电影电视点播服务和电视直播服务为主。截止今年 4 月底,它在美国已拥有近 2900 万付费用户。

由于 Hulu 的主要业务都在美国,中国绝大部分电视观众可能对这家公司比较陌生——除了工程师群体。创立初期,Hulu 就在北京成立了办公室,目前有两百多名员工,是仅次于洛杉矶总部的第二大研发中心。Hulu 公司本身的技术实力毋庸置疑,再加上外企工作氛围,吸引着诸多优秀工程师加入,但准入门槛不低于国内的 BAT 等一线大厂。

据了解,Hulu 北京办公室的人员构成主要有工程师、研究员和项目经理,主要负责的业务线有个性化推荐与内容发现、视频编解码与优化、广告精准投放、用户数据管理等。

《使女的故事》之所以能火起来,很大程度上与剧集内容本身的质量相关,但在发行初期的“冷启动”阶段,如何把它推荐给可能感兴趣的观众也至关重要。这背后就要依靠 Hulu 网站个性化推荐等相关技术的力量。

Hulu 北京首席研究主管谢晓辉告诉 AI科技大本营,Hulu 的大数据分析部门有长期的项目来研究和评估一部影视剧给用户带来的价值,基于对用户的兴趣与偏好分析,Hulu 内容的分类和完整度等数据,以及内容可能的流行程度等多维度的信息的综合分析,是内容部门决策原创剧的核心要素之一。

作为 5 月 25 日-5 月 27 日即将在杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)机器学习论坛的演讲嘉宾,AI科技大本营对 Hulu 北京首席研究主管谢晓辉进行了采访,他就 Hulu 自身视频业务与机器学习技术如何结合,机器学习技术在视频理解领域的现状和挑战,以及视频内容理解技术未来的主要研究方向等问题做出解答。

《使女的故事》大火,AI是背后最大推手?

谢晓辉,Hulu 北京首席研究主管

以下为采访内容实录:

AI科技大本营:你们在机器学习技术的研发上,近几年哪些重大进展?Hulu 是如何将机器学习技术与自身业务结合的?

谢晓辉:为了更好的利用机器学习提升 Hulu 的业务服务能力,Hulu 构建了 AI 开发平台,并基于 AI 平台,搭建了 Hulu 内部的 data mart 和 feature mart,同时还提供 nimbus(Hulu 分布式深度学习平台)和 MLAAS(机器学习服务平台)。

针对视频理解的特殊需求,我们还开发了 Frame house 用来存储针对 Hulu 全量视频拆分出来的秒级别视频帧图像与拆分的基本音频信号单元。AI 开发平台的搭建,大大提升了 Hulu 研究开发的效率。

AI科技大本营:Hulu 是如何做视频理解的?视频理解使用了哪些主要的机器学习方法?近几年,相关技术有哪些新进展?

谢晓辉:视频理解在 Hulu 目前包括三方面的工作,首先是对视频进行精细化切分,提取视频中相关的人工编辑痕迹,包括片头、前情提要、音乐、图标标识、镜头切分、场景变换、片尾、嵌入文字等等,目前我们已经高质量的完成了大多数元素的提取,借助这些数据 Hulu 可以方便的实现对视频元数据的半自动或者全自动检测与审核;

其次是视频标签预测,Hulu 人工整理了镜头级别、视频级别和剧集级别的分类词表,基于多源、多模态机器学习算法对视频进行镜头、视频和剧集级别的标签分析和预测;在内容生成方面的工作则包括个性化封面图、视频摘要的生成等,同时还融合视频的多标签信息构造了视频内容的向量表示,已经被广泛用于深度推荐算法、内容价值分析等多个项目中。

这些工作均大量涉及深度学习模型,非(半)监督和监督学习算法、多模态融合学习等方法也被广泛应用。

AI科技大本营:Hulu 是如何将视频理解技术应用于视频推荐和内容发现的?在业务实践中遇到了哪些挑战?

谢晓辉:视频网站面临的挑战一方面来自于头部视频的用户选择成本非常高,而且头部视频的展示空间有限,其次由于用户消费头部视频的行为通常稀疏、复杂而且感性,但借助于对视频的精确理解、细致与丰富的刻画,可以有效的把符合用户兴趣的视频尽量精准的分发给用户。

因此 Hulu 很早就开始在视频内容理解方向进行探索和实践,例如借助视频相似性来解决内容冷启动问题、利用视频精细化标签对视频内容分组、构建内容的特征表示应用于深度推荐模型中等等。

这其中也面临多方面的挑战。例如,内容理解的结果需要通过复杂的推荐系统影响用户,再借助用户有效点击率等方式进行评估,导致内容理解的反馈链条相对较长,有时还会存在短期效果不明显等问题,这也直接导致内容理解的算法模型参数迭代优化的成本较高。

其次目前机器学习更擅长提取偏客观事实的标签,对推荐系统更加重要的偏情感的高语义主观性标签则相对困难;另外,视频数据的标注与结果评估相比图像更加困难,迁移学习的直接效果多数也并不好,这可能是由于影视剧中包含大量卡通动画内容、较多的虚假场景和演员化妆现象、以及诸如背景虚化等影视后期处理的影响,给视频理解带来了巨大的挑战。

AI科技大本营:流媒体是这几年大热的视频播放类型,相比于其他同类型的视频网站(如 YouTube,HBO等),您认为 Hulu 的技术优势体现在哪些方面?

谢晓辉:Hulu 从超过 500 家内容提供商处获取内容资源,与全美多家著名电视台及电影公司,比如迪士尼、21 世纪福克斯、NBC 环球、时代华纳等都有合作协议,向用户授权点播最新的正版电视剧集和节目、经典电影和自制剧等视频资源;同时 Hulu 与超过 1000 家广告提供商合作,提供在线视频广告服务;Hulu 提供的直播服务更是涵盖了美国主流电视广播频道,这些在线电视节目与点播节目被有机的整合在一起,提供给用户一致的点播观看体验。

从以上可以看出,Hulu 的这些业务与 YouTube、HBO 等有明显的不同,因此 Hulu 的技术优势也更聚焦在支持这些业务的稳定、可扩展的自有技术平台上。

AI科技大本营:未来几年,多模态机器学习是视频内容理解技术的主要研究方向之一吗?在 Hulu 的实际业务中,会使用多种类型的信息(文本、图像等)进行视频内容理解和推荐吗?

谢晓辉:借助于深度学习和算力的快速发展,视频内容理解价值得到快速释放和提升,对产品和业务的影响也越来越大。但是视频内容理解其自身依然还存在诸多的挑战,这些问题包括视频的标注、高阶语义分析、非(半)监督学习、基于视频的识别/分类模型等等,我相信它们也会是未来几年该领域的主要研究方向。

头部视频天然包含了视觉帧序列、音频信号、字幕和相关描述信息,因此多模态机器学习是视频内容理解的常见思路和基础方法。在Hulu的实际业务中,无论是视频片头片尾元素的检测、亦或视频标签的预测、或者视频摘要、封面图的自动生成,都是多模态融合的解决方案。

AI科技大本营:在即将举办的 CTA 大会上,能否透露一些主要会分享哪些方面的内容?

谢晓辉:感谢 CSDN 的邀请,能提供 CTA 这样一个平台可以和关注 AI 和新技术发展的朋友们一起交流与探讨。我带来的报告内容主题是“视频理解在个性化推荐和内容发现中的应用”,分享Hulu 在借助于视频内容理解来优化个性化推荐和内容发现方面的探索和实践经验,内容涉及视频理解在内容冷启动、视频精细化标签和分组、深度推荐模型中的应用等等,希望大家感兴趣并一起讨论。

(*本文由 AI科技大本营原创,转载请联系微信 1092722531)