快手科技多媒体内容理解部李岩:AI技术贯穿于快手的产品骨髓之中
“AI技术贯穿于整个快手产品的骨髓之中,通过AI技术进行多维赋能,让更多人有机会被世界看见,也能看到更广阔的世界。”5月25日,在2019全球人工智能技术大会(2019 GAITC)上,快手科技多媒体内容理解部负责人李岩如是表示。
大会在南京举行,李岩在“人工智能与媒体融合前沿论坛”作了演讲。李岩作为快手科技的代表,讲述了快手如何用AI技术去赋能每一个普通用户,让每一个人的记录形式更丰富、有趣、高质量。
李岩说,快手在AI技术上的深耕,降低了短视频的创作门槛,使用户尽可能地接近专业水准。而在理解内容、理解用户中实现视频和用户的精准匹配,让每位用户获得更大的展现空间,同时看到了更大的世界。
他认为,通过短视频实现的记录,让人与人以及人与世界连接起来,是很有意义的,从整体来看,提升了网民之间的信任。
以下为演讲内容实录(有删节):
非常高兴有机会介绍在快手这样一个短视频社区,AI是如何应用的,具体会产生什么样好玩的AI应用。
我的分享分为三部分。第一部分简单介绍一下快手;第二部分介绍AI技术如何帮助用户提升视频创作质量,降低创作门槛;第三部分介绍AI技术如何理解视频,理解用户,并做好分发。
快手是什么
快手把自己定位成普通人记录生活和分享生活的社区型产品,通过短视频、照片以及直播的形式,帮助人们记录自己的生活,使每一个人都有机会被世界看到,也能看到更广阔的世界。
快手在2011年诞生,今年成立8周年,目前DAU已达到2亿。2011年,GIF快手是做动图的工具,2013年移动互联网兴起,我们看到了短视频的重要影响和作用,2013年7月,工具型产品转型为短视频社区。转型短视频社区之后,快手的数据实现了指数级增长,2015年1月,快手日活用户超过1000万,截止到现在,快手的日活已经到达2亿。在中国的互联网市场,日活2亿量级的APP非常少。凭借数亿用户几年的积累,现在有超过100亿条短视频记录在我们的社区里,并以每天新增1500万条短视频的速度增加,4年前这个数字只有几十万。
在快手里,用户记录了大千世界里的方方面面,在这里我们可以看到很多种真实有力量的生活,有些画面是我们在大众媒体看不到的。比如这个视频,鸭绿江的放排人在运输木材,把高山上的木材顺着水流运到山下,这种古老的水运方式已经很少被人知晓,在快手这群人被数百万人关注到。还有这个视频,这是城市工地上的“水鬼”,这个职业很小众,但一二线城市的每一座高楼大厦都需要他们,在用建高楼大厦打地基的时候,需要用电钻挖几十米的深坑,电钻头掉了需要他们潜到几十米深的浑浊泥水中,把电钻恢复原位。
普通用户记录的生活,涵盖的内容超越了之前的记者或者专业人士记录、调研的范围。有数亿人在快手记录自己的生活,这里有当代的百工图,有全球各地的田野风俗,还有用户记录的各式各样的旅行生活,也有清华、人大等高校教授讲解知识进行知识传播,这些画面聚集起来就是一幅我们当代生活的清明上河图。
AI帮助用户用更低成本创作出更高水平的视频
接下来,我重点讲一下AI技术如何帮助这款短视频产品做得更好。我希望帮助各位媒体的朋友们了解到,AI技术其实是贯穿于快手的产品骨髓之中,应用在视频生产、视频理解、用户理解到视频推荐的整个环节。
视频创作环节,我们希望每个人都能成为自己生活的导演,用手机去记录生活,而且生成相对较高质量的视频。如何帮助每个人成为自己的导演呢?在视频创作环节快手广泛应用了AI技术,用科技去赋能普通用户,使他们尽可能接近专业制作视频的水准。
我们希望让用户用更低的成本创作出更高水平的视频,这就需要让AI助力于内容生产。
比如,快手之前上线的一款魔法表情叫“快手时光机”,用户可以在几十秒钟内看到自己容颜变老的过程。一个人拍自己的视频是很乏味的,我们希望用户能够体验到自己变老以后的样子。
又比如,把AR技术应用在用户拍摄视频的环节,给现实生活的画面加入一些虚拟的元素,这属于增强现实,使虚拟世界和现实世界更好的互动,使人们在记录自己生活的时候有更多的新奇的体验。
再比如,我们会运用图像相关的算法,帮助用户去矫正拍摄中出现问题的视频,比如脏镜头导致的视频画面模糊,光线问题导致的画面昏暗及画面偏色的问题。
这些玩法和功能的背后是快手对前沿 AI技术的开发,涉及人体姿态估计、手势识别、背景分割等多个技术模块。这些都是快手努力将记录形式变得更加有趣的新尝试。
这里有一个挑战,上述技术都要在手机本地实时地进行计算与渲染。快手拥有数亿用户,用户的手机机型千差万别的,这要求我们的算法必须在所有的机型上都能流畅运行,这对我们AI能力的要求是非常高的,非常消耗计算资源。为了解决这个问题快手自研了YCNN深度推理学习引擎,解决了AI技术运行受限于用户设备计算量的问题。
音频方面,我们也做了非常多的工作。比如之前专业的人在创作视频时,编辑字幕是非常痛苦的事情。现在我们通过语音识别技术,可以帮视频制作者自动添加、编辑字幕,而且还可以以各种各样的形式展示字幕,借助AI的技术极大地降低了生成字幕的成本。
在短视频场景里音乐起了非常重要的作用。据统计,快手的视频中,有60%-80%的视频用背景音乐烘托气氛。如何选择恰当的音乐表达心情,其实是不容易事情。让用户尽量贴合音乐的节奏创作动作,对于用户的要求也是非常高的,具备很强乐感的人其实非常少。
为了降低用户创作视频时选择音乐的门槛,我们开发了智能配乐及AI生成音乐的技术。智能配乐可以根据视频画面及用户画像为用户推荐适合视频画面,并被用户喜欢的背景音乐供用户选择。AI生成音乐通过AI的分析算法,可以感知到视频画面中人的动作,然后让生成的音乐节奏匹配人的动作,这样是极大地降低了用户创作视频时选择音乐的门槛,让大家更愿意创作自己的视频。
用AI理解视频,理解用户,做好分发
上面分享的是AI技术如何降低人工创作短视频的门槛,使普通用户都可以创作出质量还不错的短视频。用户创作并上传到我们的社区后,我们又做了哪些事情更好的分发这些视频呢?
理解视频其实非常复杂,对人脸纬度的解析、场景类的解析、音乐类的解析等等,这些都是从单个角度进行建模,其实视频需要多模态的解析。我们需要做到让机器高效的判断用户上传的视频是不是符合规则的,判断视频内容是不是原创的,以及要做到把视频精准的匹配给对他感兴趣的用户。
我们让机器能够帮助我们管理好上传的海量视频,同时帮我们做好视频的推荐,而且推荐给用户的视频是能激发用户兴趣的。这里还涉及用户理解,指的是让机器理解我们的用户,其中包括理解用户在社会学上的特征,以及用户的兴趣,包括他的短期兴趣爱好以及中长期兴趣爱好,以及海量的能够代表用户特征的更小的向量。
在视频的分发上,快手上有一个非常有意思的现象,我们不希望头部的视频内容占据太多的曝光,我们用经济学上的基尼系数控制平台上用户之间的“贫富差距”。互联网上的注意力资源是非常宝贵的资源,我们希望这种宝贵的资源也能分给普通人,而不是像聚光灯一样聚集在少量的头部用户身上。所以我们设计了快手的推荐机制,无论是明星还是普通人在快手都是一样的。快手重视生产者的利益,重视长尾视频内容的分发。我们希望注意力资源可以向阳光一样撒给所有生产视频的用户,这样普通人就有机会被更多人关注,能够感受到被关注被认可的幸福感。