活着不容易!几度被扼杀又雄起的NLP简史
图片来源:pexels.com
20世纪初,瑞士语言学教授费尔迪南·德·索绪尔(Ferdinand de Saussure)的逝世使“语言为科学”的理念几乎被世人遗忘。1906年至1911年,索绪尔教授于日内瓦大学开设了三门课程。在这5年间,他构建并悉心传授了将语言描述为“系统”的方法。在语言学中,语义表态(sound)是可以随着上下文变化而改变的语言含义。
索绪尔教授认为语言含义是在语言内部(语言各部分之间的关系和差异)产生的,即语言间的关系和差异才是决定“语言含义”的关键要素。共享式的语言系统使通信成为可能。索绪尔教授将社会视为能够为理性的、“扩展的”思维提供基础条件并影响个人决定和行动的“共享式”群体规范体系(现代计算机语言基于这一观点构建了相关运用)。
索绪尔教授于1913年去世,但他的两位同事阿尔伯特·塞切哈耶(Albert Sechehaye)和查尔斯·巴利(Charles Bally)认识到其理念的重要性。他们分别收集并归纳了索绪尔教授的手稿笔记和索绪尔教授的学生课堂笔记。感谢两人的努力,《普通语言学教程》(Cours deLinguistique Générale)终于在1916年得以出版。这本书为运用于语言学、计算机科学以及其他领域的结构主义理论奠定了基础。
图片来源:pexels.com
艾伦·图灵(Alan Turing)在1950年发表的论文中提出了图灵测试用以评判一部机器是否能够“思考”。他认为,如果一台机器可以通过使用如打字机这类的输出设备成功参与对话,并且表现出与人类无明显的差异的表达能力,那么这台机器可以被认定为具有“思考”能力。在此之后不久,于1952年提出的霍奇金-赫胥黎模型(theHodgkin-Huxley model)展示了大脑如何使用神经元形成一个电力网。这些发展历程激发了人工智能、自然语言处理(NLP)和计算机发展的理念。
自然语言处理
作为AI的其中一个研究领域,NLP 旨在帮助计算机理解、解释和运用人类语言。NLP 使计算机能够运用人类语言与人交流。通过使用 NLP 技术,计算机还具备了阅读文本、听取语音和解释输入文本的能力。为了拉近人类和计算机通信之间的距离, NLP 借鉴了包括计算语言学和计算机科学在内的多个相关学科技术。
一般来说,NPL将语句分解为单词、句点等更短、更基本的“标记”(token),并尝试理解标记间的关系。其他更高级的NLP功能会参与此过程,例如:
· 文本内容分类:包括文本内容警示、重复率检测、文本搜索和索引在内的语言文本归纳总结。
· 探寻文本主题并建模获取文本集合的主题和含义,并进一步分析文本。
· 上下文提取:自动从文本中提取结构化数据。
· 褒贬义分析:识别字符数较多的文本的大体情绪或主观意见,可用于意见挖掘。
· 文本到语音和语音到文本的转换:将语音命令转换为文本,反之亦然。
· 自动文摘:自动创建摘要,浓缩文本内容。
· 机器翻译:自动将一种语言的文本或语音翻译成另一种语言。
NLP 研究的发展和停滞
1957年,诺姆·乔姆斯基(Noam Chomsky)出版了《句法结构》一书。在这本书中,他颠覆性地提出如果想要计算机理解一种语言就必须改变句子结构的语言概念。为创造一台能够在思维和交流方面模仿人类大脑的计算机(AI),乔姆斯创建了“短语结构语法(Phase-Structure Grammar)”,这可将自然语言的句子有条不紊地翻译成计算机可使用的格式。
1958年,约翰·麦卡锡(John McCarthy)发布了至今仍在使用的计算机语言编程语言——LISP(Locator/IdentifierSeparation Protocol,定位符/标识符分离协议)。1964年,基于反射技术实现了使用打字机“说话”的机器人心理学家ELIZA。“她”不能理解咨询人的语音文本,仅仅通过遵循简单的语法规则将文本语序重新排列的处理过程生成回应语句。同年,美国国家研究委员会(the U.S. National Research Council,简称 RC)成立了自动语言处理咨询委员会(the Automatic Language Processing AdvisoryCommittee,简称ALPAC)。该委员会的任务是评估 NLP 研究的进展。
1966年,NRC 和 ALPAC 停止对 NPL 和机器翻译研究的资助,导致了 AI 和 NLP 的第一次研究停滞。即使经过长达12年的研究(耗资2000万美元啊!),机器翻译的成本仍然比人工翻译要高,而且没有电脑能够进行基本对话。1966年,AI 和 NLP 的研究被许多人(不是所有人!有些人的眼睛还是雪亮的!)认为是死胡同。
NLP 研究的正式回归
直到1980年,在经历了近14年的苦苦等待后,被坚实拥护者保护在怀中的 NLP 和AI 研究的羸弱花苞得以绚烂绽放。从某些方面而言,AI 研究的停滞为新研究阶段的新想法埋下了伏笔——摒弃早期的机器翻译理念,加速生成新研究阶段如专家系统在内的全新理念。在早期的 NLP 研究中,语言学和统计学结合的研究方法很受欢迎,但是之后纯统计学的研究方法抢走了“人气王”称号。20世纪80年代 NLP 研究进行了深刻的重新定位,用简单的近似逼近代替了深入分析,研究的评价过程也变得更加严格。
图片来源:pexels.com
直到20世纪80年代,大多数 NLP 系统都采用复杂的“手写”规则。但在20世纪80年代末,计算能力稳步增长和机器学习算法的普及促使 NLP 发生了一场革命性变化。虽然早期的一些机器学习算法(以决策树为代表)生成的系统与手写规则系统类似,然而,统计模型成为了越来越多的研究的宠儿。这些统计模型能够进行软性地、概率性地决策。在上世纪80年代,IBM 成功开发了几个复杂统计模型。
90年代,用于分析自然语言处理的统计模型收获了空前的人气。纯统计模型的 NLP 方法能够及时处理流量巨大的网络文本。N-Grams以数字方式识别和跟踪语言数据集合。1997年引入LSTM(Long Short-Term Memory)递归神经网络(recurrent neural net,简称 RNN)模型,并于2007年在语音和文本处理领域充分发挥优势,在 NLP 研究中占领一席之地。目前,神经网络模型被认为是 NLP 的文本理解和语音生成研究和开发的前沿方向。
2000年至今
2001年,约书亚·本西奥(Yoshio Bengion)和他的团队提出了基于前馈神经网络(feed-forward neural network)实现的第一个神经元“语言”模型。前馈神经网络是不使用连接形成循环的人工神经网络。在这种类型的网络中,数据只能单方向移动:从输入节点移动到其他隐藏节点,然后再移动到输出节点。前馈神经网络与递归神经网络不同,它没有周期或循环。
在2011年,苹果的Siri系统成为世界上第一批成功用于普通消费者群体的NLP/AI助手之一。Siri的自动语音识别模块将用户的输入语音转换成数字符号解释的概念。然后,语音命令系统将这些概念与预定义命令相匹配,并启用相应的操作。例如,如果Siri问:“您想知道您的账户余额吗?”,它能理解肯定和否定回复并采取相应操作。
通过使用机器学习技术,用户的说话模式不必与预定义的表达完全匹配。原本,为了让 NLP 系统正确地理解语音含义,这些语音需要与预定义表达极其相似。但是,使用反馈环路可以显著提高 NLP 引擎的理解准确性,并增加系统的词汇库。一个训练有素的系统能够理解“从哪里可以得到大数据相关的帮助?”“在哪里可以找到大数据专家?”和“我需要大数据相关的帮助”这几个问题所需要的答案本质上是相同的,并能够提供恰当的回应。
对话管理器与 NLP 的结合使得开发一个“像人类一样”能够通过来回提问、暗示和回答进行交谈的系统成为可能。然而,现代 AI 的表达方式仍然不像真正的人类那样自然,无法通过图灵测试。(AI:臣妾办不到啊!)
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”