Fox是如何利用机器学习俘获电影观众的心,让金刚狼3大卖的?
电影业的成功依赖于影视公司吸引电影观众的能力,但这一点说起来容易做起来就难了。电影观众示意个广泛多元化的群体,拥有广泛的兴趣和爱好。从历史来看,电影制片厂在决定投资一个特定的剧本时,严重依赖经验,这会带来巨大的风险,尤其是在投资新的原创故事的时候。而将故事和受众匹配起来的一个复杂的过程就是首席数据策略师兼媒体负责人Julie Rieger和数据科学高级副总裁Miguel Campo-Rembado以及他们在20世纪福克斯的数据科学家团队用数据来阐明的一件事。
适合机器学习的数据挑战
了解电影观众的市场细分是电影制片厂的核心职能。多年来,电影公司一直在高级数据处理方面进行投资,试图绘制出客户画像,对客户进行细分,并对未来的电影做出预测。然而,到目前为止,由于技术和体制上的障碍,细分市场的细粒度预测实现比较困难,更不用说在客户层面了。
Miguel和他的团队通过与谷歌Cloud等合作伙伴合作,解除了其中的一些障碍。共同建立了健全隐私的数据合作伙伴关系,以更好地了解电影观众,并开发了内部的深度学习模型,可对细粒度的客户数据和电影脚本进行训练,以确定观众对不同类型电影偏好的基本模式。在18个月的时间里,这些模型已经成为重要商业决策的常规考虑因素,并提供了最客观、数据驱动和有效的晴雨表,来评估电影的基调与核心观众和广大观众的亲和力,以及其潜在的财务表现。
让我们更详细地谈谈这些方法。当涉及到电影时,分析从脚本中提取的文本是有局限性的,因为它只提供了故事的一个框架,没有任何额外的动力可以吸引观众去看电影。研究小组想知道是否有办法利用现代先进的计算机视觉来研究电影预告片,因为预告片仍然是电影整个营销活动中最核心的一个元素。一部新电影的预告片的发布是一个备受期待的事件,它可以帮助预测未来的成功,所以有必要确保预告片能够吸引观众。为了实现这一目标,20世纪福克斯数据科学团队与谷歌的高级解决方案实验室合作,创建了Merlin Video,这是一种计算机视觉工具,可以学习电影预告片的密集表现形式,以帮助预测特定预告片未来的观影观众。
设计数据管道
该团队采取的第一步是确定该工具应该使用哪些技术。显而易见的选择是云机器学习引擎(Cloud Machine Learning Engine, Cloud ML Engine)以及TensorFlow深度学习框架。因为它是一个托管服务,云ML引擎可自动提供和监控所有资源,所以团队可以专注于为Merlin构建深度学习模型,而不是配置基础设施。它与云数据流的集成还可以在Data Studio中无缝生成报告,这让团队对流程的工作方式有了更深入的了解。系统的日常维护(主要是数据摄取)既简单又容易,完全可以由数据科学家来处理,而不需要其他业务部门的工程师进行干预。
Merlin.jpg的架构流程图
有了合适的基础设施,研究小组开始对YouTube 800万视频数据集进行分析。该数据集包括一个来自谷歌的预先训练的模型,该模型能够分析特定的视频特征,如颜色、光照、多种类型的人脸、数千个对象和多个景观。如上图所示,Merlin架构的第一步是解析这些预定义的特征,作为判断预告片中哪些元素最能预测观众偏好的先导。
例如,如果一个人之前看过的电影大多是由男性主演的,动作型电影,他们会不会更有可能看另一部由男性主演的动作电影?让我们深入了解一下《金刚狼3:罗根》,这部是由20世纪福克斯公司发行的动作片,由休·杰克曼饰演金刚狼。下面你可以看到12秒后进入官方预告片的截图。
罗根官方预告片
对于这个快照,Merlin返回以下标签:facial_hair, beard, screenshot, chin, human, film。在对完整的预告片进行了一秒一秒的分析后,Merlin透露罗根的顶级标签如下:
Fox的工具,Merlin的屏幕截图:标记的标签,按降序排序
罗根的标签分析完成后,20世纪福克斯公司的研究小组希望将新的分析结果与之前从其他电影预告片中提取的标签进行比较,以确定类似的电影。据推测,罗根和其他动作片的观众有一些重合之处,但这里的挑战是双重的。第一个挑战是标签在预告片中的时间位置:当标签出现在预告片中时,这很重要。第二个挑战是数据的高维性。对于任何一部电影,预告片中都有很多元素可以预测观众的兴趣,而Merlin的目标就是同时分析所有这些元素。云ML引擎的灵活性允许数据科学团队快速迭代和测试,而不会损害深度学习模型的完整性。这使得Merlin在几天之内就可以投入生产,而不是几个月或者几年。
具体地说,分析管道将这些单独的组件(标签)输入数据科学团队开发的自定义神经网络。这个自定义模型学习电影预告片中标签的时间顺序。时间序列(例如,一个物体的长镜头和间歇性的短镜头)可以传达关于电影类型、电影情节、主要角色和电影制作人的电影选择的信息。当结合历史客户数据时,可以使用测序分析来创建客户行为的预测。该管道还包括一个基于距离的“协同过滤”(CF)模型和一个逻辑回归层,该层将所有模型输出组合在一起,生成电影出席率。对模型进行端到端训练,将逻辑回归的损失反向传播到所有可训练组件(权重)。Merlin的数据管道每周更新一次,以适应新的预告片发布。管道结构如下图所示:
最后一步,该团队使用BigQuery和BigQueryML将Merlin的数百万客户预测与其他数据源合并,以创建有用的报告,并快速制作营销活动的媒体计划原型。
验证模型
让我们重新审视罗根这个示例,看看数据是否证实了我们的想法,即之前看过一部带有“粗犷”男性主角的动作片的电影观众也可能会选择罗根。电影上映后,我们可以处理该观众以前看过哪些电影的数据。下表显示了前20名预测受众(Comp PRED)与前20名实际观影观众的对比(Comp ACT)。让我们关注前5部实际电影(如下面的绿色所示),看看它们是否也出现在我们的预测栏中:在前5名中,所有电影都由预测表示。
Merlin Video的结果输出与实际VS预测的观众相关
从表面上看,我们的直觉是正确的。罗根最受欢迎的观众实际上是超级英雄(我们已经知道了)和“硬汉男主角”(我们不确定)的结合。这一点可以从以下内容中得到更好的体现:The Magnificent Seven(上面的蓝色),John Wick(上面的绿色)和Terminator Genisys(上面的蓝色)也出现在实际观众人数最多的前20名列表中。这是一个双赢的结果,因为新观众“增加”了超级英雄的核心观众,并有可能被用于将电影的范围扩展到核心观众之外。
这些工具对20世纪福克斯的营销和数据团队的影响是巨大的。该团队现在可以部署更精确的工具来确定客户的意图,而不仅仅依赖于高水平的受众调查结果。这些见解比该工作室之前依赖的分析至少要详细两个数量级。自2017年《the Greatest Showman》上映以来,20世纪福克斯一直在使用这一工具,并将继续使用它来发布最新版本。他们现在还整合了来自家庭娱乐资源的购买和租赁数据,以确定观众和他们看过的电影之间更强的相关性。
最后,由于数据更精细,团队可以查看实际的票房表现与内部预测的对比,以了解哪些段级预测成真。 Miguel的数据科学团队现在每周一早上创建记分卡,然后通过电子邮件发送给组织的其他人。
如果你有兴趣了解更多关于Merlin的研究,你可以在这里找到原始的研究论文。
(论文传送门:https://arxiv.org/abs/1810.08189)
编译出品
来源:https://cloud.google.com/blog/products/ai-machine-learning/how-20th-century-fox-uses-ml-to-predict-a-movie-audience