Flair：一款简单但技术先进的NLP库

minerzhu

2019-02-26

关注关注

过去的几年里，在NLP（自然语言处理）领域，我们已经见证了多项令人难以置信的突破，如ULMFiT、ELMo、Facebook的PyText以及谷歌的BERT等等。

这些技术大大推进了NLP的前沿性研究，尤其是语言建模。只要给出前几个单词的顺序，我们就可以预测下一个句子。

但更重要的是，机器也找到了长期无法实现推测语句的关键因素。

那就是：语境！

对语境的了解打破了阻碍NLP技术进步的障碍。而今天，我们就来讨论这样的一个库：Flair。

Flair：一款简单但技术先进的NLP库

至今为止，单词要么表示为稀疏矩阵，要么表示为嵌入式词语，如GLoVe，Bert和ELMo。但是，事物总有改进的空间，Flair就愿意更正不足。

在本文中，首先我们将了解Flair是什么以及其背后的概念。然后将深入讨论使用Flair实现NLP任务。

Flair：一款简单但技术先进的NLP库

一. 什么是Flair库？

Flair：一款简单但技术先进的NLP库

Flair是由Zalando Research开发的一个简单的自然语言处理（NLP）库。 Flair的框架直接构建在PyTorch上，PyTorch是最好的深度学习框架之一。 Zalando Research团队还为以下NLP任务发布了几个预先训练的模型：

1. 名称-实体识别（NER）：它可以识别单词是代表文本中的人，位置还是名称。

2. 词性标注（PoS）：将给定文本中的所有单词标记为它们所属的“词性”。

3. 文本分类：根据标准对文本进行分类（标签）。

4. 培训定制模型：制作我们自己的定制模型。

所有的这些模型，看起来很有前景。但真正引起我注意的是，当我看到Flair在NLP中超越了几项最先进成绩的时候。看看这个目录：

Flair：一款简单但技术先进的NLP库

注意：F1评分主要是用于分类任务的评估指标。在评估模型时，它通常用于机器学习项目中的精度度量。F1评分考虑了现有项目的分布。

Flair：一款简单但技术先进的NLP库

二. Flair库的优势是什么？

Flair库中包含了许多强大的功能，以下是最突出的一些方面：

· 它包括了最通用和最先进的单词嵌入方式，如GloVe，BERT，ELMo，字符嵌入等。凭借Flair API技术，使用起来非常容易。

· Flair的界面允许我们组合不同的单词嵌入并嵌入文档，显著优化了结果。

· 'Flair 嵌入'是Flair库提供的签名嵌入。它由上下文字符串嵌入提供支持，我们将在下一节中详细了解这一概念。

· Flair支持多种语言，并有望添加新语种。

Flair：一款简单但技术先进的NLP库

三. 用于序列标记的上下文字符串嵌入简介

在处理NLP任务时，上下文语境非常重要。通过先前字符预测下一个字符，这一学习过程构成了序列建模的基础。

上下文字符串的嵌入，是通过熟练利用字符语言模型的内部状态，来产生一种新的嵌入类型。简单来说，它通过字符模型中的某些内部原则，使单词在不同的句子中可以具有不同的含义。

注意：语言和字符模型是单词/字符的概率分布，因此每个新单词或新字符都取决于前面的单词或字符。

Flair：一款简单但技术先进的NLP库

有两个主要因素驱动了上下文字符串的嵌入：

1. 这些单词被理解为字符（没有任何单词的概念）。也就是说，它的工作原理类似于字符嵌入。

2. 嵌入是通过其周围文本进行语境化的。这意味着根据上下文，相同的单词可以有不同的嵌入意义。很像自然的人类语言，不是吗？在不同的情况下，同一个词可能有不同的含义。

让我们看个例子来理解这个意思：

· 案例1：读一本书（Reading a book）

· 案例2：请预订火车票（Please book a train ticket）

说明：

· 在案例1中，book是一个名词

· 在案例2中，book是动词

语言是如此奇妙而复杂的东西啊！

Flair：一款简单但技术先进的NLP库

四. 使用Flair在Python中执行NLP任务

是时候让Flair进行测试了！我们已经了解了这个神奇图书馆的全部内容。现在让我们亲眼看看它在机器上是如何运行的。

我们将使用Flair在Python中执行以下所有NLP任务：

1.使用Flair对嵌入的文本分类

2.词性标记（PoS）与NLTK库的比较

建立环境

Flair：一款简单但技术先进的NLP库

我们将使用Google Colaboratory运行我们的代码。Colab最棒的一点就是它免费提供GPU支持！这极大地方便了学习模型的深度培训。

为什么使用Colab？

· 完全免费

· 具有相当不错的硬件配置

· 你的Web浏览器上都有，即使是硬件过时的旧机器也可以运行

· 连接到你的Google云端硬盘

· 很好地与Github集成

你只需要一个稳定的互联网连接。

关于数据集

我们将努力研究Twitter Sentiment Analysis（推特敏感度分析）的实践问题。

而这一挑战带来的问题是：

这项任务的目的是检测推文中的仇恨言论。为了简单起见，如果它带有相关的种族主义或性别歧视情绪，我们则判断这条推文包含仇恨言论。因此，这项任务是将带有种族主义或性别歧视地推文与其他推文分类。

1.使用Flair嵌入进行文本分类

第1步：将数据导入Colab的本地环境：

# Install the PyDrive wrapper & import libraries.

# This only needs to be done once per notebook.

!pip install -U -q PyDrive

from pydrive.auth import GoogleAuth

from pydrive.drive import GoogleDrive

from google.colab import auth

from oauth2client.client import GoogleCredentials

# Authenticate and create the PyDrive client.

# This only needs to be done once per notebook.

auth.authenticate_user()

gauth = GoogleAuth()

gauth.credentials = GoogleCredentials.get_application_default()

drive = GoogleDrive(gauth)

# Download a file based on its file ID.

# A file ID looks like: laggVyWshwcyP6kEI-y_W3P8D26sz

file_id = '1GhyH4k9C4uPRnMAMKhJYOqa-V9Tqt4q8' ### File ID ###

data = drive.CreateFile({'id': file_id})

#print('Downloaded content "{}"'.format(downloaded.GetContentString()))

你可以在驱动器中数据集文件的可共享链接中找到文件ID。

将数据集导入Colab笔记本：

import io

Import pandas as pd

data = pd.read_csv(io.StringIO(data.GetContentString()))

data.head()

已从数据中删除所有表情符号和符号，并且字符已转换为小写。

第2步：安装Flair

# download flair library #

import torch

!pip install flair

import flair

简要介绍一下Flair数据类型

这个库的对象有两种类型—句子和标记对象。一个句子持有一个文本句子，基本上是标记列表：

from flair.data import Sentence

# create a sentence #

sentence = Sentence('Blogs of Analytics Vidhya are Awesome.')

# print the sentence to see what’s in it. #

print(Sentence)

第3步：准备文本以使用Flair

#extracting the tweet part#

text = data['tweet']

## txt is a list of tweets ##

txt = text.tolist()

print(txt[:10])

第4步：使用Flair嵌入单词

## Importing the Embeddings ##

from flair.embeddings import WordEmbeddings

from flair.embeddings import CharacterEmbeddings

from flair.embeddings import StackedEmbeddings

from flair.embeddings import FlairEmbeddings

from flair.embeddings import BertEmbeddings

from flair.embeddings import ELMoEmbeddings

from flair.embeddings import FlairEmbeddings

### Initialising embeddings (un-comment to use others) ###

#glove_embedding = WordEmbeddings('glove')

#character_embeddings = CharacterEmbeddings()

flair_forward = FlairEmbeddings('news-forward-fast')

flair_backward = FlairEmbeddings('news-backward-fast')

#bert_embedding = BertEmbedding()

#elmo_embedding = ElmoEmbedding()

stacked_embeddings = StackedEmbeddings( embeddings = [

flair_forward-fast,

flair_backward-fast

])

你会注意到，我们刚刚使用了一些上面最流行的单词嵌入。你可以删除评论'＃'以使用所有嵌入。

现在你可能会问，到底什么是“堆叠嵌入”？在这里，我们可以结合多个嵌入来构建一个功能强大的单词表示模型，不需要太复杂。很像合唱，不是吗？

我们使用Flair的堆叠嵌入只是为了减少本文中的计算时间。使用你喜欢的任何组合可以随意地使用这个和其他嵌入。

测试堆叠嵌入：

# create a sentence #

sentence = Sentence(‘ Analytics Vidhya blogs are Awesome .')

# embed words in sentence #

stacked.embeddings(sentence)

for token in sentence:

print(token.embedding)

# data type and size of embedding #

print(type(token.embedding))

# storing size (length) #

z = token.embedding.size()[0]

第5步：将文本矢量化

我们将使用两种方法展示这一点。

· 在推文中嵌入词的意思

我们将在这种方法中计算以下内容：

对于每个句子：

1.为每个单词生成单词嵌入

2.计算每个单词嵌入的平均值以获取句子嵌入

from tqdm import tqdm ## tracks progress of loop ##

# creating a tensor for storing sentence embeddings #

s = torch.zeros(0,z)

# iterating Sentence (tqdm tracks progress) #

for tweet in tqdm(txt):

# empty tensor for words #

w = torch.zeros(0,z)

sentence = Sentence(tweet)

stacked_embeddings.embed(sentence)

# for every word #

for token in sentence:

# storing word Embeddings of each word in a sentence #

w = torch.cat((w,token.embedding.view(-1,z)),0)

# storing sentence Embeddings (mean of embeddings of all words) #

s = torch.cat((s, w.mean(dim = 0).view(-1, z)),0)

· 文档嵌入：将整个推文矢量化

from flair.embeddings import DocumentPoolEmbeddings

### initialize the document embeddings, mode = mean ###

document_embeddings = DocumentPoolEmbeddings([

flair_embedding_backward,

flair_embedding_forward

])

# Storing Size of embedding #

z = sentence.embedding.size()[1]

### Vectorising text ###

# creating a tensor for storing sentence embeddings

s = torch.zeros(0,z)

# iterating Sentences #

for tweet in tqdm(txt):

sentence = Sentence(tweet)

document_embeddings.embed(sentence)

# Adding Document embeddings to list #

s = torch.cat((s, sentence.embedding.view(-1,z)),0)

你可以为模型选择任一种方法。现在我们的文本已经矢量化过，我们可以将其提供给我们的机器学习模型了！

第6步: 为训练集和测试集划分数据

## tensor to numpy array ##

X = s.numpy()

## Test set ##

test = X[31962:,:]

train = X[:31962,:]

# extracting labels of the training set #

target = data['label'][data['label'].isnull()==False].values

第7步：构建模型并定义自定义评估程序（用于F1分数）

· 为XGBoost定义自定义F1评估程序

def custom_eval(preds, dtrain):

labels = dtrain.get_label().astype(np.int)

preds = (preds >= 0.3).astype(np.int)

return [('f1_score', f1_score(labels, preds))]

· 构建XGBoost模型

import xgboost as xgb

from sklearn.model_selection import train_test_split

from sklearn.metrics import f1_score

### Splitting training set ###

x_train, x_valid, y_train, y_valid = train_test_split(train, target,

random_state=42,

test_size=0.3)

### XGBoost compatible data ###

dtrain = xgb.DMatrix(x_train,y_train)

dvalid = xgb.DMatrix(x_valid, label = y_valid)

### defining parameters ###

params = {

'colsample': 0.9,

'colsample_bytree': 0.5,

'eta': 0.1,

'max_depth': 8,

'min_child_weight': 6,

'objective': 'binary:logistic',

'subsample': 0.9

}

### Training the model ###

xgb_model = xgb.train(

params,

dtrain,

feval= custom_eval,

num_boost_round= 1000,

maximize=True,

evals=[(dvalid, "Validation")],

early_stopping_rounds=30

)

至此，我们的模型已经通过训练，可以进行评估了！

第8步: 可以预测了！

### Reformatting test set for XGB ###

dtest = xgb.DMatrix(test)

### Predicting ###

predict = xgb_model.predict(dtest) # predicting

我们可以把预测上传到练习题界面，其中，0.2是概率阈值。

Flair：一款简单但技术先进的NLP库

注意：根据Flair的官方文档显示，一个嵌入和其他嵌入堆叠时，效果更佳。但是存在一个问题。

Flair：一款简单但技术先进的NLP库

在CPU上计算可能需要非常长的时间，强烈建议利用GPU来获得更快的结果，你可以在Colab中使用免费的。

2.词性标注（POS）

我们将使用Conll-2003数据集的一个子集，是一个预先标记的英文数据集。

第1步：导入数据集

### file was uploaded manually to local environment of Colab ###

data = open('pos-tagged_corpus.txt','r')

txt = data.read()

#print(txt)

数据文件每行包含一个单词，空行表示句子边界。

第2步：从数据集中提取句子和PoS标签

### converting text in form of list of (words with their tags) ###

txt = txt.split('')

### removing DOCSTART (document header)

txt = [x for x in txt if x != '-DOCSTART- -X- -X- O']

### check ###

for i in range(10):

print(txt[i])

print(‘-’*10)

### Extracting Sentences ###

# Initialize empty list for storing words

words = []

# initialize empty list for storing sentences #

corpus = []

for i in tqdm(txt):

## if blank sentence encountered ##

if i =='':

## previous words form a sentence ##

corpus.append(' '.join(words))

## Refresh Word list ##

words = []

else:

## word at index 0 ##

words.append(i.split()[0])

# did it work? #

for i in range(10):

print(corpus[i])

print(‘-’*10)

### Extracting POS ###

# Initialize empty list for storing word pos

w_pos = []

#initialize empty list for storing sentence pos #

POS = []

for i in tqdm(txt):

## blank sentence = new line ##

if i =='':

## previous words form a sentence POS ##

POS.append(' '.join(w_pos))

## Refresh words list ##

w_pos = []

else:

## pos tag from index 1 ##

w_pos.append(i.split()[1])

# did it work? #

for i in range(10):

print(corpus[i])

print(POS[i])

### Removing blanks form sentence and pos ###

corpus = [x for x in corpus if x!= '']

POS = [x for x in POS if x!= '']

### Check ###

For i in range(10):

print(corpus[i])

print(POS[i])

我们从数据集中提取了我们需要的基本方面。让我们继续第3步。

第3步：使用NLTK和Flair标记文本

· 使用NLTK进行标记

首先，输入所需的库资源：

import nltk

nltk.download('tagsets')

nltk.download('punkt')

nltk.download('averaged_perceptron_tagger')

from nltk import word_tokenize

这将会下载所有所需的文件，用于使用NLTK进行标记。

### Tagging the corpus with NLTK ###

#for storing results#

nltk_pos = []

##for every sentence ##

for i in tqdm(corpus):

# Tokenize sentence #

text = word_tokenize(i)

#tag Words#

z = nltk.pos_tag(text)

# store #

nltk_pos.append(z)

POS标签采用以下格式：

[(‘token_1’, ‘tag_1’), ………….. , (‘token_n’, ‘tag_n’)]

让我们从中提取POS：

### Extracting final pos by nltk in a list ###

tmp = []

nltk_result = []

## every tagged sentence ##

for i in tqdm(nltk_pos):

tmp = []

## every word ##

for j in i:

## append tag (from index 1) ##

tmp.append(j[1])

# join the tags of every sentence #

nltk_result.append(' '.join(tmp))

### check ###

for i in range(10):

print(nltk_result[i])

print(corpus[i])

NLTK标签已准备就绪。

· 现在，关注一下使用Flair进行标记

首先，输入库资源：

!pip install flair

from flair.data import Sentence

from flair.models import SequenceTagger

使用Flair进行标记：

# initiating object #

pos = SequenceTagger.load('pos-fast')

#for storing pos tagged string#

f_pos = []

## for every sentence ##

for i in tqdm(corpus):

sentence = Sentence(i)

pos.predict(sentence)

## append tagged sentence ##

f_pos.append(sentence.to_tagged_string())

###check ###

for i in range(10):

print(f_pos[i])

print(corpus[i])

结果将为以下格式：

token_1 <tag_1> token_2 <tag_2> ………………….. token_n <tag_n>

注意：我们可以在Flair库中使用不同的标记器，可以随意修补和实验。

用NLTK的方式提取句子标签

Import re

### Extracting POS tags ###

## in every sentence by index ##

for i in tqdm(range(len(f_pos))):

## for every words ith sentence ##

for j in corpus[i].split():

## replace that word from ith sentence in f_pos ##

f_pos[i] = str(f_pos[i]).replace(j,"",1)

## Removing < > symbols ##

for j in ['<','>']:

f_pos[i] = str(f_pos[i]).replace(j,"")

## removing redundant spaces ##

f_pos[i] = re.sub(' +', ' ', str(f_pos[i]))

f_pos[i] = str(f_pos[i]).lstrip()

### check ###

for i in range(10):

print(f_pos[i])

print(corpus[i])

啊哈！我们终于标记了语料库并从其中按顺序提取出句子。我们可以自由删除所有的标点和特殊符号。

### Removing Symbols and redundant space ###

## in every sentence by index ##

for i in tqdm(range(len(corpus))):

# Removing Symbols #

corpus[i] = re.sub('[^a-zA-Z]', ' ', str(corpus[i]))

POS[i] = re.sub('[^a-zA-Z]', ' ', str(POS[i]))

f_pos[i] = re.sub('[^a-zA-Z]', ' ', str(f_pos[i]))

nltk_result[i] = re.sub('[^a-zA-Z]', ' ', str(nltk_result[i]))

## Removing HYPH SYM (they are for symbols) ##

f_pos[i] = str(f_pos[i]).replace('HYPH',"")

f_pos[i] = str(f_pos[i]).replace('SYM',"")

POS[i] = str(POS[i]).replace('SYM',"")

POS[i] = str(POS[i]).replace('HYPH',"")

nltk_result[i] = str(nltk_result[i].replace('HYPH',''))

nltk_result[i] = str(nltk_result[i].replace('SYM',''))

## Removing redundant space ##

POS[i] = re.sub(' +', ' ', str(POS[i]))

f_pos[i] = re.sub(' +', ' ', str(f_pos[i]))

corpus[i] = re.sub(' +', ' ', str(corpus[i]))

nltk_result[i] = re.sub(' +', ' ', str(nltk_result[i]))

我们使用NLTK和Flair标记了语料库，提取并删除了所有不必要的元素，让我们一起看看：

for i in range(1000):

print('corpus '+corpus[i])

print('actual '+POS[i])

print('nltk '+nltk_result[i])

print('flair '+f_pos[i])

print('-'*50)

输出：

Flair：一款简单但技术先进的NLP库

结果看起来非常有说服力！

第4步：针对标记数据集评估来自NLTK和Flair的PoS标记

在这里，我们将在定制评估器的帮助下对标签进行逐字评估。

Flair：一款简单但技术先进的NLP库

请注意，在上面的示例中，与NLTK和flair标签相比，实际的POS标签包含冗余（如粗体所示）。因此，我们不会考虑句子长度不等的POS标记句子。

### EVALUATION FUNCTION ###

def eval(x,y):

# correct match #

count = 0

#Total comparisons made#

comp = 0

## for every sentence index in dataset ##

for i in range(len(x)):

## if the sentence length match ##

if len(x[i].split()) == len(y[i].split()):

## compare each word ##

for j in range(len(x[i].split())):

if x[i][j] == y[i][j] :

## Match! ##

count = count+1

comp = comp + 1

else:

comp = comp + 1

return (count/comp)*100

最后，我们根据数据集提供的POS标签评估NLTK和Flair的POS标签。

print("nltk Score ", eval2(POS,nltk_result))

print("Flair Score ", eval2(POS,f_pos))

结果是：

NLTK评估分数: 85.38654023442645

Flair 评估分数: 90.96172124773179

Flair显然在字嵌入和堆叠字嵌入方面占据优势。由于其高级的API，这些嵌入可以毫不费力地实现。

nlp

minerzhu

0 关注 0 粉丝 0 动态

关注关注

使用NLP创建摘要

你有没有读过很多的报告，而你只想对每个报告做一个快速的总结摘要?你是否曾经遇到过这样的情况?摘要已成为21世纪解决数据问题的一种非常有帮助的方法。在本篇文章中，我将向你展示如何使用Python中的自然语言处理创建个人文本摘要生成器。基本上，在保持关键信息的

csdnfelix 2020-11-12

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 2020-11-05

本周六锁定成都！解析百度文心（ERNIE）如何助力快速定制企业级NLP模型

继去年巡回公开课后，百度AI快车道将再次锁定天府之国成都！小伙伴们，这周六莫吃火锅喽，一哈去快车道嘛！本周六，百度NLP资深研发工程师将为成都地区的开发者们带来满满的NLP技术干货分享。从文心技术解析到EasyDL实战演练，为你解析如何定制企业高精度NLP

yyhhlancelot 2020-11-04

在预训练NLP模型上测量性别相关性

在过去的几年中，自然语言处理取得了长足的进步，诸如BERT，ALBERT，ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。鉴于这样的预训练表示在不同NLP任务中得到广泛采用，作为从业者，我们需要了解预训练模型如何对信息编码以及学习

mxs 2020-10-26

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 2020-10-26

NLP/CV模型跨界，视觉Transformer赶超CNN?

在计算机视觉领域中，卷积神经网络一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出

cswingman 2020-10-05

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 2020-09-23

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

熊Ok 2020-09-22

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 2020-08-30

谷歌开源NLP模型可视化工具LIT，模型训练不再「黑箱」

深度学习模型的训练就像是「黑箱操作」，知道输入是什么、输出是什么，但中间过程就像个黑匣子，这使得研究人员可能花费大量时间找出模型运行不正常的原因。假如有一款可视化的工具，能够帮助研究人员更好地理解模型行为，这应该是件非常棒的事。近日，Google 研究人员

yyhhlancelot 2020-08-26

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

AI正在向更深层次进化，语言与知识技术的重要性愈加凸显。在演讲中，王海峰表示，“在百度语言与知识技术的布局和发展中，我们始终在注意把握两个趋势，即技术发展趋势和产业发展趋势，并力争引领趋势。”

龙心尘 2020-08-25

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 2020-08-10

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 2020-08-03

EasyDL全新升级，文心（ERNIE）3项能力助力快速定制企业级NLP模型

近日，百度文心重磅发布三项功能，新增定制多标签文本分类、情感倾向分析模型等功能，同时数据管理能力也进一步增强，更好地满足自然语言处理领域开发者需求，开发者可通过百度AI开发平台EasyDL进行使用。在2020世界人工智能大会，百度文心荣获最高奖项SAIL奖

PaddlePaddle 2020-07-30

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

如何快速优雅地处理你的NLP数据集？试试这款号称「从小白到大神」的Texthero的工具包。不仅编写界面友好美观，而且功能全面，预处理、表征、可视化样样精通，在Reddit上17个小时内就获得了近1.1k的热度。事实上，Texthero的优雅绝不仅仅在于界

yyhhlancelot 2020-07-06

达观数据融合自研OCR与NLP技术推出智能RPA<

2019 年7月 26 日，人工智能企业达观数据在北京召开“达道至简”为主题的产品发布会，正式推出国内首款自主研发集OCR与 NLP于一体的达观智能RPA。RPA作为一种软件产品和解决方案，在国外市场上已进入大规模发展应用。RPA 的价值在于将企业重复性劳

WarGamesdc 2020-06-30

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 2020-06-21

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 2020-05-22

一口气发布1008种机器翻译模型，GitHub最火NLP项目大更新：涵盖140种语言组合

现在，你可以用 GitHub 上最火的 NLP 项目做机器翻译了。没错，就是 Hugging Face （抱抱脸）标星26.9k的 Transformer 项目。在最新更新的版本里，抱抱脸发布了 1008 种模型，正式涉足机器翻译领域。模型涵盖 140 种

BigDataDigest 2020-05-19

安科网

Flair：一款简单但技术先进的NLP库

minerzhu

minerzhu

相关推荐

使用NLP创建摘要

为什么企业应该了解聊天机器人中的自然语言处理？

本周六锁定成都！解析百度文心（ERNIE）如何助力快速定制企业级NLP模型

在预训练NLP模型上测量性别相关性

NLP：不要重新造轮子

NLP/CV模型跨界，视觉Transformer赶超CNN?

人工智能的研究热点:自然语言处理

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

自然语言处理必读：5本平衡理论与实践的书籍

谷歌开源NLP模型可视化工具LIT，模型训练不再「黑箱」

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

无需「域外」文本，微软：NLP就应该针对性预训练

NLP小白入门篇：莫愁前路，一文读懂语料预处理

EasyDL全新升级，文心（ERNIE）3项能力助力快速定制企业级NLP模型

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

达观数据融合自研OCR与NLP技术推出智能RPA<

NLP中的标识化

基于OpenSeq2Seq的NLP与语音识别混合精度训练

腾讯AI又创新纪录：ACL 2020入选27篇论文

一口气发布1008种机器翻译模型，GitHub最火NLP项目大更新：涵盖140种语言组合

minerzhu