神经机器翻译技术为谷歌翻译提供帮助

xiaoxiaokeke

2019-03-25

关注关注

简单的制作神经机器翻译技术为谷歌翻译提供帮助

机器翻译：

两种思想流派：

使用统计方法的经验试验和误差方法
理论方法涉及基础语言研究

Babel's Fish： 1997年由AltaVista搜索引擎推出的世界上第一个网络翻译工具。

Seq2Seq建模简介：用于NLP任务，如文本摘要，语音识别，DNA序列建模等。

典型的seq2seq模型有两个主要成分：

a）编码器

b）解码器

使用Keras在Python中实现：

我们将使用来自http://www.manythings.org/anki/的中文 - 英语句子对数据。和文件夹名称是cmn-eng，将包含cmn.txt。

1、导入所需的库：

import string
import re
from numpy import array, argmax, random, take
import pandas as pd
from keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding, RepeatVector
from keras.preprocessing.text import Tokenizer
from keras.callbacks import ModelCheckpoint
from keras.preprocessing.sequence import pad_sequences
from keras.models import load_model
from keras import optimizers
import matplotlib.pyplot as plt
%matplotlib inline
pd.set_option('display.max_colwidth', 200)

神经机器翻译技术为谷歌翻译提供帮助

2、阅读IDE中的数据：

# function to read raw text file
def read_text(filename):
 # open the file
 file = open(filename, mode='rt', encoding='utf-8')
 
 # read all text
 text = file.read()
 file.close()
 return text
# split a text into sentences
def to_lines(text):
 sents = text.strip().split('
')
 sents = [i.split('	') for i in sents]
 return sents
data = read_text("cmn.txt")
cmn_eng = to_lines(data)
cmn_eng = array(cmn_eng)

神经机器翻译技术为谷歌翻译提供帮助

我们使用50000个句子对来减少模型的训练时间。

cmn_eng = cmn_eng[:50000,:]

文本预处理：

大多数数据都是非结构化的

a）文本清理

# Remove punctuation
cmn_eng[:,0] = [s.translate(str.maketrans('', '', string.punctuation)) for s in cmn_eng[:,0]]
cmn_eng[:,1] = [s.translate(str.maketrans('', '', string.punctuation)) for s in cmn_eng[:,1]]
cmn_eng

神经机器翻译技术为谷歌翻译提供帮助

b）文本到序列转换：

我们将分别在两个单独的英语和汉语列表中捕获所有句子的长度。

# empty lists
eng_l = []
cmn_l = []
# populate the lists with sentence lengths
for i in cmn_eng[:,0]:
 eng_l.append(len(i.split()))
for i in cmn_eng[:,1]:
 cmn_l.append(len(i.split()))
length_df = pd.DataFrame({'eng':eng_l, 'cmn':cmn_l})
length_df.hist(bins = 30)
plt.show()

神经机器翻译技术为谷歌翻译提供帮助

接下来，我们使用Keras Tokenizer（）类对文本数据进行向量化。

# function to build a tokenizer
def tokenization(lines):
 tokenizer = Tokenizer()
 tokenizer.fit_on_texts(lines)
 return tokenizer
# prepare english tokenizer
eng_tokenizer = tokenization(cmn_eng[:, 0])
eng_vocab_size = len(eng_tokenizer.word_index) + 1
eng_length = 8
print('English Vocabulary Size: %d' % eng_vocab_size)
# prepare Deutch tokenizer
cmn_tokenizer = tokenization(cmn_eng[:, 1])
cmn_vocab_size = len(cmn_tokenizer.word_index) + 1
cmn_length = 8
print('Deutch Vocabulary Size: %d' % cmn_vocab_size)
# encode and pad sequences
def encode_sequences(tokenizer, length, lines):
 # integer encode sequences
 seq = tokenizer.texts_to_sequences(lines)
 # pad sequences with 0 values
 seq = pad_sequences(seq, maxlen=length, padding='post')
 return seq

神经机器翻译技术为谷歌翻译提供帮助

3. 模型构建：

现在，我们将数据分成训练和测试集，用于模型训练和评估。

from sklearn.model_selection import train_test_split
# split data into train and test set
train, test = train_test_split(cmn_eng, test_size=0.2, random_state = 12)
# prepare training data
trainX = encode_sequences(cmn_tokenizer, cmn_length, train[:, 1])
trainY = encode_sequences(eng_tokenizer, eng_length, train[:, 0])
# prepare validation data
testX = encode_sequences(cmn_tokenizer, cmn_length, test[:, 1])
testY = encode_sequences(eng_tokenizer, eng_length, test[:, 0])

神经机器翻译技术为谷歌翻译提供帮助

现在我们定义我们的Seq2Seq模型架构：

对于编码器，我们将使用嵌入层和LSTM层
对于解码器，我们将使用另一个LSTM层，然后是密集层

# build NMT model
def define_model(in_vocab,out_vocab, in_timesteps,out_timesteps,units):
 model = Sequential()
 model.add(Embedding(in_vocab, units, input_length=in_timesteps, mask_zero=True))
 model.add(LSTM(units))
 model.add(RepeatVector(out_timesteps))
 model.add(LSTM(units, return_sequences=True))
 model.add(Dense(out_vocab, activation='softmax'))
 return model
# model compilation
model = define_model(cmn_vocab_size, eng_vocab_size, cmn_length, eng_length, 512)

神经机器翻译技术为谷歌翻译提供帮助

使用RMSprop优化器：

rms = optimizers.RMSprop(lr=0.001)
model.compile(optimizer=rms, loss='sparse_categorical_crossentropy')

神经机器翻译技术为谷歌翻译提供帮助

sparse_categorical_crossentropy用作损失函数。

4. 训练我们的模型

我们将训练30个周期，batch为512，验证分为20％。80％的数据将用于训练模型，其余数据用于评估模型。我们还将使用ModelCheckpoint（）函数来保存验证损失最小的模型。

filename = 'model.h1.24_jan_19'
checkpoint = ModelCheckpoint(filename, monitor='val_loss', verbose=1, save_best_only=True, mode='min')
# train model
history = model.fit(trainX, trainY.reshape(trainY.shape[0], trainY.shape[1], 1),
 epochs=30, batch_size=512, validation_split = 0.2,callbacks=[checkpoint], 
 verbose=1)

神经机器翻译技术为谷歌翻译提供帮助

5. 加载保存的模型并对不可见的data-testX进行预测。

model = load_model('model.h1.24_jan_19')
preds = model.predict_classes(testX.reshape((testX.shape[0],testX.shape[1])))

神经机器翻译技术为谷歌翻译提供帮助

自然语言处理谷歌机器翻译语言翻译翻译理论 keras

xiaoxiaokeke

0 关注 0 粉丝 0 动态

关注关注

MIT 推出机器翻译新算法，破译已消失的古语言

麻省理工学院计算机科学与人工智能实验室的研究人员最近开发出了一种新的计算机算法，可以帮助语言学家自动破译历史上消失已久失的古语言。官方指出，该系统能够自动破译已消失的语言，且无需对这一语言与其他语言的关系有深入的了解。他们还表明，该系统自身就可以确定语言之

baijingjing 2020-10-27

机器翻译：谷歌翻译是如何对几乎所有语言进行翻译的？

谷歌翻译大家想必都不陌生，但你有没有想过，它究竟是如何将几乎所有的已知语言翻译成我们所选择的语言？本文将解开这个谜团，并且向各位展示如何用长短期记忆网络构建语言翻译程序。第一部分简单介绍神经网络机器翻译和编码器-解码器结构。什么是机器翻译？在机器翻译领域，

WhiteHacker 2020-10-11

使用Python和Keras创建简单语音识别引擎

语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力。通常，这些算法的简单实现有一个有限的词汇表，它可能只识别单词/短语。但是，更复杂的算法具有广泛的词汇量，并包含方言、噪音和俚语。语音只是由我们的声带引起的空气周围振动而产生的一系列声

dflyzx 2020-03-04

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 2020-11-05

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 2020-10-26

十大针对机器学习的文本注释工具与服务，你会选用哪个？

下面，我将和您一起探讨目前十大针对机器学习的文本注释工具与服务。您可以根据自己项目的实际情况，从中做出选择并试用。Tagtog是一款由波兰软件公司开发的工具，可用于自动化或手动注释文本。Tagtog既支持原生的PDF注释，又包含了可用于自动化文本注释的预训

lgblove 2020-10-23

AI创业哪家强？6大选择给你方向

guojin0 2020-10-08

自然语言处理实战：机器学习常见工具与技术

许多自然语言处理都涉及机器学习，所以理解机器学习的一些基本工具和技术是有益处的。有些工具已经在前几章中讨论过，有些还没有，但这里我们会讨论所有这些工具。数据选择和特征工程会带来偏见的风险。类似的种族、宗教甚至地理区域偏见在原始的Word2vec模型中普遍存

lirika 2020-09-27

人工智能的企业家来说，这四个新的方向可能值得重视

在过去、现在和未来，人们用人工智能改变了许多行业，取得了很大的进步，也对人工智能有着长期和系统的发展远景和规划。对于人工智能的企业家来说，这四个新的方向可能值得重视：一是人类的自然语言处理、密集学习、记忆网络和其他技术领域与其他物种不同。人类的重要能力之一

saluzirobot 2020-09-25

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 2020-09-23

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

熊Ok 2020-09-22

AI写的文章，真的可以骗过老师了

在过去的几年里，机器学习和人工智能的专家们一直致力于研究一些算法，这些算法可以用以前认为人类完全可以写的方式撰写文章和其他类型的内容。前段时间，一位学生用编程语言让电脑写了一篇文章在外网火了，网友都看不出来那篇文章出自AI之手。随着这些技术越来越先进，我们

randy0 2020-09-17

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 2020-08-30

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 2020-08-10

pytorch+huggingface实现基于bert模型的文本分类（附代码）

一年前的这个时候，我逃课了一个星期，从澳洲飞去上海观看电竞比赛，也顺便在上海的一个公司联系了面试。当时，面试官问我对RNN的了解程度，我回答“没有了解”。但我把这个问题带回了学校，从此接触了RNN，以及它的加强版-LSTM。时隔一年，LSTM好像已经可以退

qilixuening 2020-07-18

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 2020-06-21

人工智能的8个有用的日常例子

如果你在谷歌上搜索“人工智能”这个词，然后不知怎的就打开了这篇文章，或者用优步打车上班，那么你就利用了人工智能。虽然有人将其称为“机器人以邪恶的天才统治世界”的现象，但我们无法否认人工智能通过节省时间、金钱和精力使生活变得轻松。人工智能是指机器通过专门设计

womystery 2020-06-17

人工智能的三大领域及其工业应用

人工智能是一门新兴的技术学科，研究和开发用于模拟人类智能的扩展和扩展的理论，方法，技术和应用系统。人工智能研究的目标是让机器执行一些复杂的任务，这些任务需要聪明的人来完成。也就是说，我们希望机器可以代替我们来解决一些复杂的任务，不仅仅是重复的机械活动，而是

purgle 2020-06-01

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 2020-05-22

安科网

神经机器翻译技术为谷歌翻译提供帮助

xiaoxiaokeke

简单的制作神经机器翻译技术为谷歌翻译提供帮助

xiaoxiaokeke

相关推荐

MIT 推出机器翻译新算法，破译已消失的古语言

机器翻译：谷歌翻译是如何对几乎所有语言进行翻译的？

使用Python和Keras创建简单语音识别引擎

为什么企业应该了解聊天机器人中的自然语言处理？

NLP：不要重新造轮子

十大针对机器学习的文本注释工具与服务，你会选用哪个？

AI创业哪家强？6大选择给你方向

自然语言处理实战：机器学习常见工具与技术

人工智能的企业家来说，这四个新的方向可能值得重视

人工智能的研究热点:自然语言处理

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

AI写的文章，真的可以骗过老师了

自然语言处理必读：5本平衡理论与实践的书籍

无需「域外」文本，微软：NLP就应该针对性预训练

pytorch+huggingface实现基于bert模型的文本分类（附代码）

NLP中的标识化

基于OpenSeq2Seq的NLP与语音识别混合精度训练

人工智能的8个有用的日常例子

人工智能的三大领域及其工业应用

腾讯AI又创新纪录：ACL 2020入选27篇论文

xiaoxiaokeke