AI能把照片唱出来！邀你体验腾讯黑科技

九三智能控

2017-10-20

导读：本文介绍了我们在图像描述生成与TTS等技术跨界的前沿研究进展，并邀请大家测试一个趣味Demo。我们还会分享在多媒体内容AI应用上一点思考。

2017年8月，在图像描述生成技术这一计算机视觉与NLP交叉研究领域，腾讯AI Lab凭借自主研发的强化学习算法在微软MS COCO相关的Captions类别挑战赛上排名第一，超过了微软、谷歌、IBM等参赛公司，体现了在这一前沿领域的技术优势。

AI能把照片唱出来！邀你体验腾讯黑科技

微软MS COCO也称常见物体图像识别数据集，对图像的标注信息包括类别、位置和图像语义文本描述等，该数据集的开源使近两三年来图像分割语义理解取得了巨大进展，几乎成为图像语义理解算法性能评价的「标准」数据集。链接：http://cocodataset.org/#captions-leaderboard

团队特别制作了「把照片唱给你听」体验Demo，将图像描述生成技术与文本转语音（Text to Speech，简称TTS）两大AI技术结合，希望以更轻松的方式让大众了解机器「视觉能力」提升的一小步。上传1到4张图片后，AI会生成相关的文字描述并匹配韵脚歌词，再通过合成语音配合旋律Rap出来。

上传吃喝玩乐国庆美图时，AI唱出来是这样的

视频加载中...

腾讯科技腾讯科技人工智能

安科网

AI能把照片唱出来！邀你体验腾讯黑科技

九三智能控

九三智能控

相关推荐

腾讯云上主流电商“双11”用云量翻倍，星星海撑90%算力需求

22年来首次！腾讯发布纪录片展现To B业务10年创业史

腾讯发布“数字云企”生态合作行动，全面助力中小企业数字化转型

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

数据库领域又一里程碑式突破！腾讯云TcaplusDB支持过亿DAU游戏

腾讯发布业内首个AI安全攻击矩阵让排风险像查字典一样简单

从IaaS到SaaS，腾讯二十年自研技术云上集结

视频云4.0升级发布，腾讯云构建业界最完整音视频产品矩阵

CSS2020聚焦新基建腾讯发布云原生安全体系助力客户备战云上“主战场”

一部手机管健康打通医疗全场景，腾讯以C2B助力智慧医疗

腾讯云发布全新游戏云解决方案，助力游戏开发者高效开发

腾讯副总裁丁珂：新基建加速中国上云速度，云安全已成为安全主战场

腾讯智慧零售数字增长峰会：私域新生态，增长新格局

腾讯WeTest获三项ISO国际认证，构建顶尖全球化品质标准

腾讯云小微等语音助手持续发力，AI语音技术应用和生态融合

腾讯云发布国内首款Serverless数据库，成本将降低70%

腾讯云与英国工业软件公司AVEVA携手加速工业数字化转型

腾讯AI又创新纪录：ACL 2020入选27篇论文

京东最大股东竟然不是创始人刘强东？原来是熟悉的他

腾讯几款QQ软件

九三智能控