智通分享 | 自然语言处理,让机器善解人意

自然语言处理(Natural Language Processing,简称NLP)是人工智能技术重要的组成部分,自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然地随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言,要让机器理解自然语言需要自然语言处理技术。

智通分享 | 自然语言处理,让机器善解人意

什么是自然语言处理(NLP)?

自然语言处理(NLP),是指用计算机对自然语言的形、音、 义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的应用包括机器翻译、信息检索、自动问答、情感分析、信息抽取等。

1.机器翻译

机器翻译(Machine Translation)是指运用机器,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。机器翻译是一门交叉学科(边缘学科),组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑,各自建立在语言学、计算机科学和数学的基础之上。

目前,文本翻译最为主流的工作方式依然是以传统的统计机器翻译和神经网络翻译为主。文本翻译的应用广泛,不同行业都可以采用相应的专业翻译,但是,这一翻译过程可能是机械的和僵硬的,在翻译过程中会出现很多语义语境上的问题,有时还需人工翻译来进行补充。

语音翻译也在广泛应用,例如机器同传技术,可以在会议场景出现,演讲者的语音实时转换成文本,并且进行同步翻译,能够取代人工同传,不同语言的人可以进行低成本有效交流。

图像翻译也有不小的进展,除此之外还有视频翻译和 VR 翻译也在逐渐应用中。

2.智能检索

基于语义的智能搜索,即识别用户搜索词句中的内容,理解用户搜索意图,全面准确匹配搜索内容,实现更好地搜索体验。

例如,智通科技携手中国石化打造的石油行业的搜索引擎,能够提供智能搜索,基于语义的拓展,输入的搜索没有这个关键字,但是在搜索时候还是可以找出来,例如“库车凹陷”是“塔里木盆地”的构造之一,所以搜索“塔里木盆地”时,有关“库车凹陷”的内容也会搜索出来,是更善解人意的搜索助手。

智通分享 | 自然语言处理,让机器善解人意

3.自动问答

自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。自动问答系统在回答用户问题时,首先要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,将获取的答案反馈给用户。这一过程涉及了包括对词法、句法进行语义分析的基础技术,以及信息检索、知识工程、文本生成等多项技术。

根据目标数据源的不同,问答技术大致可以分为检索式问答、社区问答以及知识库问答三种。检索式问答和社区问答的核心是浅层语义分析和关键词匹配,而知识库问答则正在逐步实现知识的深层逻辑推理。

4.情感分析

情感分析主要对表达的意见、评价、情绪、主客观性等方面的研究。情感分析在工业界和学术界已经有着广泛的应用,比如舆情监测,还有企业征信、聊天服务机器人等。情感包括正面、负面和中性三个方面。例如,“这部电影情节还不错,我很喜欢,但是这家影院的3D效果太烂,以后不会再来了。”如果在句子层面,句子前半段是正面;句子后半段是负面;既有正面也有负面,但综合评价是负面。

5.信息抽取

信息抽取基本的任务就是要把一大段话变成结构化的表达;也就是说,信息抽取就是要把非结构化数据、半结构化数据变成结构化数据。举个例子,下面是智通科技研发的语义魔方产品应用演示视频,依托语义魔方产品可实现自然语言文本的机器阅读,抽取核心知识点,提炼知识多维特征,可以将一大段文字提炼成知识卡片,大大提升了知识获取的效率。

智通分享 | 自然语言处理,让机器善解人意

智通科技知识卡片构建

自然语言处理是人工智能领域中的重要一环,自然语言处理的进步将推动人工智能的发展。

智通科技作为在人工智能领域的创新公司,凭借团队多年在自然语言处理方面的专注研发,打造了以用户需求为核心的国内首款语义理解和处理的工具级产品—语义魔方。

“语义魔方”产品可以满足用户的各种语义分析和业务应用需求,例如情感分析、文本内容识别等,同时支持结构化、半结构化、非结构化等多源异构数据融合,并从中识别相应的实体和关系,构建知识图谱,支撑企业的智能化应用。

“语义魔方”产品目前已经迭代更新到2.0版本,并且已经在石油石化、政务、出版、金融等行业进行了广泛的应用。

这几年,智通科技在自然语言处理的研究上取得了长足的进步,未来智通科技将搭乘人工智能快速发展的列车,不断深入研究,将自然语言处理技术在更多的行业和场景中进行应用。

相关推荐