【清华AI公开课】NLP的现状、应用以及未来的发展机会
【新智元导读】4月4日,清华大学《人工智能前沿与产业趋势》系列讲座第三讲,由百度七剑客之一雷鸣、清华大学计算机系教授朱小燕、昆仲资本创始&管理合伙人王钧一起讨论NLP的发展、落地和局限。
首先由清华大学海峡研究院大数据AI中心专家委员、百度七剑客之一、酷我音乐创始人雷鸣老师对音频和NLP领域的技术和落地场景,做了一个综合的介绍。
语音识别已经接近人类水平,还可以用于身份识别
雷鸣提到,目前的语音识别在噪音不大的情况下,基本已接近人类水平。在一些特定场合,甚至比人类更好。 在音频识别、哼唱、音频指纹方面有很多的应用场景。
音乐的识别仅仅通过歌曲的一小段,就能知道歌曲作者、版权归属等。而一些音乐软件,甚至可以通过人们哼唱一段曲调,就能找出对应的歌曲。除了音乐识别,还可以直接创作音乐,偶尔也可以做到以假乱真。
身份识别也可以用到音频,直接按照提示说几个字,就可以识别出是否机主本人。雷鸣提到,视频+音频的组合将来会身份识别起到非常大的促进作用,相当于多了一部校验,进一步降低错误率。
在检测一段音频是否为无损压缩的场景中,人耳基本是很难分别出来的。但是通过分析这段音频的频谱图,用计算机视觉就可以进行检测。
语音合成虽然刚刚兴起,也已经有了长足的进展。为此雷鸣举了一个例子,今年315也保管改了利用语音合成技术拨打骚扰电话,不论是声调还是上下文,当事人都很难发现对方根本不是一个人。
目前NLP应用的场景还包括了智能助理、智能客服系统、语言翻译、专家系统、推荐系统等。
语音是一维信号,图像是二维信号,语言是E的平方
清华大学计算机教授、博导朱小燕提到,语音是一维信号,图像是二维信号。所以语音处理相比图像处理更容易。但是同样是处理自然信号,语言表达后就会产生不同的效果。
比如说Apple,会英语的知道说的是苹果,如果不懂英语听起来就不知所云,所以相比前两者,语言的维度可以看做的E的平方。
在可用性上,朱小燕提出一个词叫“糙快猛”。目前机器学习能够把一维和二维处理的很好,比如日常翻译。但机器目前还不能翻译小说,因为涉及到语义。
针对深度学习的黑盒属性以及强健性不足的问题,朱小燕指出其实很好解决,只要用在不需要解释或者不怕攻击的地方即可。落地应用需要考虑的问题,第一是场景,第二是产品,第三才是技术。没有最好的技术,只有最适合的技术。
NLP领域的产业机会
昆仲资本创始&管理合伙人王钧认为,找到好的应用场景很重要,比如人脸识别应用在抓坏人这个场景,并不需要特别高的精准度,也不需要可解释,只要能够抓住坏人就可以。
供给有限的情况下,能找到好的应用场景、好的商业模式,把这些有限的供给能够在这个行业应用中创造出比较大的价值。
课程直播链接:深度学习与自然语言处理:评析与展望(清华场)