MGC+AI=MAGIC!技术出身NYT工作经历,听徐常亮博士畅谈媒体大脑
大数据文摘出品
作者:刘俊寰
今年云栖大会上,闪亮登场的不是只有阿里首款自研芯片含光800等“硬科技”,新华智云自主研发的会议报道机器人的表现也相当抢眼。
据了解,该机器人将140条会议短视频自动拆条剪辑,平均每位嘉宾分享完不到一分钟即可生成一条短视频,大幅降低人工成本,提升了会展内容的传播效率。
新华智云是新华社和阿里巴巴在2017年6月成立的媒体大数据人工智能公司,现由徐常亮任新华智云董事兼联席CEO。
说到徐常亮,他从普林斯顿大学博士毕业后进入到了纽约时报工作,正是在纽约时报这段时间他第一次接触到云计算和大数据,让他对新闻领域产生了兴趣,这也是他参与建设新华智云的重要原因。
在徐常亮看来,媒体行业会率先采用新技术,可以说,媒体行业本身需要技术支撑,而当下最领先的技术是人工智能,媒体大脑的构想就应运而生。媒体大脑就是试图在媒体行业实现AI技术落地,让机器学习听说读写能力,理解具体生活场景,然后再以新闻形式输出。
可以说,媒体大脑的开发也是对新闻领域的一次革新!
同时,徐常亮也是本次大数据文摘与猎聘共同颁发的“30位新生代数字经济人才”精英奖的获奖者之一。精英奖旨在表彰在相关领域对数字经济发展作出卓越贡献,利用数据和技术对产业带来的实际推动作用的行业精英。
媒体大脑将为新闻创作提供数据视角
非结构化数据多,首先要明确基本能力
正如徐常亮在演讲中说到,媒体行业的产品就是数字化,但是与一般互联网数据相比,新闻领域的非结构化数据较多,这也大大提高了数据提取的难度。
阿里有一句话,先要一切业务数据化,然后再是一切数据业务化。对应到媒体这个行业,徐常亮提出了“新闻即数据,数据即新闻”,从数据中挖掘新闻,待新闻沉淀为数据,为今后的新闻打造提供历史依据。
追溯互联网发展历史可以发现,大数据的发展基于搜索引擎,谷歌提出的“三驾马车”也是想要针对搜索文档进行处理,而搜索文档的一个重要特点就是新闻数据。
因此在徐常亮看来,新华智云现在做的工作、面对的挑战和谷歌相比没有太大差别。也正是因为如此,在语言文字的处理方面,新华智云完全可以吸收借鉴谷歌在过去20多年的经验。
选择在图片视频领域的发展,技术层面上是因为深度学习的计算能力、数据储备和模型都已经得到了相当不错的发展,商业场景上,4G的普及、5G的应用都使得短视频领域的业务形态得到广泛关注。
其中,徐常亮将视频处理的难点总结为以下三个方面:
- 视频的非结构化数据更复杂,怎样对数据处理,怎样实现商业落地
- 技术产品与基础算法能力如何实现互补
- 数据的获取和准备,对偶发事件的建模难度
针对这些难点,首先必须将媒体大脑的基本能力明确化——定位文档和视频片段,最开始的数据集也将会在某个垂直领域进行相应完善,不会针对全网的所有数据。
徐常亮认为,媒体大脑的理想形态取决于人类的进步和实时的需求。
近期媒体大脑的工作还是会围绕短视频的编辑与生产。
必须承认的是,新华智云目前还无法实现在通用领域完成动作理解,但是在视频理解和视频摘要领域已经取得不错的成绩,他们在国际计算机视觉顶级会议ICCV 2019的CoView挑战赛中取得了第一名的成绩。
注:ICCV(国际计算机视觉大会,全称:International Conference on Computer Vision)是计算机视觉方向的三大顶级会议之一,由IEEE主办在世界范围内每两年召开一次。ICCV论文录用率非常低,是三大会议中公认级别最高的。
数据能为深度报道提供不一样的视角
现在机器生产内容还是局限于体育、财经等领域,对于机器能否参与深度报道的撰写,徐常亮指出,首先要明确何为“深度”,在数据中同样可以找到很多新闻点,数据也能给创作者提供很多新的角度和观点,比如台风数据的整理,这也是深度报道的一种形式。
再比如,在云栖大会上,可以通过抓取互联网上对含光芯片的评价,调查对象就能从嘉宾变成全体互联网网民,素材量也就相应地得到扩大。
此外,深度报道是否需要机器参与,欠缺的更多是评价。能生产内容远远不够,如何做到还要做到有态度,进而做到有温度,即如何拿捏态度和情感的强弱,也需要在深度报道中体现出来。
在MGC(机器生产内容, Machine Generated Content)时代,徐常亮根据自己在纽约时报和阿里的相关经历描绘了机器、读者和记者三方的关系。他认为,就像今后的商品生产会逐渐转向顾客需求为主导,个性化生产也会成为重要的一环,读者可以自己命题、自己找角度,在自己想了解的维度上获取信息。而这点,新华智云已经具备了相应能力。
从内容生产者的角度上说,现在已经进入到了UGC时代,广义上,所有人都是在做内容创作。新华智云的愿景是整合数据可供人人使用,甚至通过数据和舆情的准备激发人们的创作欲望。
如今早已是海量信息充斥,对于资讯而言大家想达成的更多还是如何更精准更精炼地获得信息,精准推送所造成的信息茧房现象就像游戏沉迷一样,是不可避免的,而相应的防范措施也需要和具体平台的应用进行结合。
从“有图有真相”到“有视频有真相”,技术发展的每个阶段都有每个阶段的挑战,不能因为技术发展所带来的不良后果把技术本身否定掉。而且,目前包括新华智云在内的许多机构都在做事实核查方面的研究。
面对5G的发展,徐常亮认为5G时代真正到来之后,会给用户带来更好的视听感触,许多内容都能逐渐往高清上发展,今后用户都能做到在线生产、在线存储、在线分发,打造在线新闻中心会越来越容易。
探索数字经济时代的媒体新业态
以下是徐常亮在数字经济人才晚宴上的分享速记:
大概介绍一下新华智云媒体大脑,新华智云是新华社和阿里巴巴合资成立的,大家看媒体大脑的“大脑”这个词也可以猜到和阿里相关,阿里在各个行业都在推出“大脑”系列。我在筹建新华智云之前,参与了整个阿里大数据的建设,后期也参与了一系列的发布,包括城市大脑。
阿里和新华社合资成立新华智云,是希望把新闻生产的全链路用云计算、大数据、人工智能的方法做出成效。从17年发布媒体大脑——第一个媒体行业的人工智能平台,到最近推出一系列产品,包括MAGIC短视频智能生产平台和25个媒体机器人,媒体行业的产品就是数字化,这是不同于其他行业的地方,这上面有很多文章可以做。
接下来借阿里20年历程,说一说今天我对数字经济的理解。1999年还是B2B,那个时候是把已有的文字内容或者说信息互联网化。到03年,淘宝把商品放到网上,大家在互联网上能非常容易看到商品。然后淘宝和支付宝联合实现了网上支付,移动支付也是靠这个打通的。
下一步是怎么样以数字经济的方式来做物流。阿里在这方面一直在探索,现在也没有特别好的模式。到最后上云,我在这里更想提阿里云,阿里云从某种意义上来讲,是让各行各业上云。
上云逐渐由易到难,先是简单的文字,再是商品,然后是支付。到了阿里云阶段,如果把网站或者APP看成一个产品,去开发网站和APP的过程,也可以等价为生产商品的过程。
对于IT行业而言,更多是把生产车间、生产环境上云。而新华智云想做的是“在线”,数字经济的历程从某种意义上说也就是在线的过程。对于媒体行业,我们想把内容生产做到完全在线化,这就不仅仅是生产车间、生产力,还包括生产资料、数据都要上云,或者说这些数据在云上,我们更好去组织它。
在这个过程中,我们还想探索数字经济时代的媒体新业态。相比于过去侧重在分发端发力,我们更侧重在生产端,把生产流水线,包括生产资料,都在云上准备好。
比如,在城市大脑之前,交通摄像头就一直都在,但里面的数据几乎不用。到城市大脑,交通摄像头的数据就可以用来预测交通规划交通,优化调节红绿灯等。
交通摄像头摄像头也可以看做记者,这就让记者就变成7×24小时在线,而且是任何地点任何时间。这些数据也可以嵌套上人工智能,我们换算过,当时杭州的一个主城区大概有15万个摄像头,没人知道这里面的这些数据可以去干什么。这些视频就可以用来做新闻,当然也可以来做监管,想象空间一下子就能打开。
这就提出,如何看待数据,以及把信息挖掘出来的问题,今天的新闻只是一个呈现业态而已。
刚才说可以从交通摄像头取景,也可以从电视摄像头直播摄像头取景作为素材。比如进球视频,之前要做的话要花分钟级别,今天让机器来做可以做到秒级别。
我们是想要在通过视频能力,来分析这些信息,不管从骨架抽取,还是从它本身的动作各方面,然后到历史资料库里做匹配。这些如果组合起来可以发掘很多有趣的事情,就像搭乐高一样。
只要把基础标签打准了,上层就有非常多应用空间。不仅仅是内容创作,还可以给媒体编辑提供线索、角度和创意。有了数据抽取能力,一方面可以做自动化生产,另一方面可以把能力组装起来,让编辑去设计模板。
做一个类比,工业生产流水线进去的材料是一模一样的,出去的内容也是一模一样的,大家如果每天看到都是千篇一律的新闻,就会枯燥乏味。但可以去打造一条新闻生产流水线,进去的内容千变万化,识别能力又可以去做匹配,再加上上层定义,最后就能生成千变万化的内容!
大家可能在电商行业听到过“个性化生产”,现在新闻也可以根据个人喜好做出个性化生产。17年我们提出MGC的概念,就是机器生产内容。机器生产本身可能会有一些枯燥乏味,但是当把AI加进去以后就会得到很大改善,而且会非常神奇地出现“MAGIC”这个词。
在智能时代,我们希望有一套内容生产基础设施,利用AI能力加上自动化和人机协作。在内容生产方向,已经有很多公司也在做这样的尝试了,可以说我们带了一个非常好的头。
最后一点,也是非常重要的。大家之前听到写稿机器人,是让机器人做到自动化写稿,但其实我们更希望的是提供一个新的维度来看这个世界。新华智云的这套能力能通过整个数据链路,通过人工智能能力采集新闻资源和处理系统资源,可以极速提升。我们这方面也已经和很多媒体单位合作了。
我们希望在数字经济时代,媒体的新业态不仅仅是像头条在分发端做出贡献,同时在内容生产侧作出贡献,真正地把数据利用好,真正进入数字经济时代。