AI能把照片唱出来!邀你体验腾讯黑科技

导读:本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展,并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。

2017年8月,在图像描述生成技术这一计算机视觉与NLP交叉研究领域,腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一,超过了微软、谷歌、IBM等参赛公司,体现了在这一前沿领域的技术优势。

AI能把照片唱出来!邀你体验腾讯黑科技

微软MS COCO也称常见物体图像识别数据集,对图像的标注信息包括类别、位置和图像语义文本描述等,该数据集的开源使近两三年来图像分割语义理解取得了巨大进展,几乎成为图像语义理解算法性能评价的「标准」数据集。链接:http://cocodataset.org/#captions-leaderboard

团队特别制作了「把照片唱给你听」体验Demo,将图像描述生成技术与文本转语音(Text to Speech,简称TTS)两大AI技术结合,希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后,AI会生成相关的文字描述并匹配韵脚歌词,再通过合成语音配合旋律Rap出来。

上传吃喝玩乐国庆美图时,AI唱出来是这样的

视频加载中...

相关推荐