python 下的 word2vec 学习

Joyliness

2018-09-05

1.ubuntu下安装gensim

refer to: ubuntu 14.04 安装gensim

为了保证安装成功，首先升级一下easy_install工具。

sudo easy_install -U setuptools
1

之后使用easy_install进行安装，使用apt-get安装会遇到编码出错，不知为什么，使用easy_install安装成功就行了。

sudo easy_install --upgrade gensim
1
2

结果在import gensim 中还出现了点小错误，缺少了平pattern模块，所以直接pip 安装。

sudo pip install pattern
1

2.训练生成模型

安装完成之后，就来训练模型。

refer:中英文维基百科语料上的word2vec实验

模型的训练如下：

# ################# 例1 #########################
# import modules &amp; set up logging
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)
1
2
3
4
5
6
7
8

在本次的实验中，我们的数据是保存在txt文件中的。每一行对应一个句子（已经分词，以空格隔开），我们可以直接用LineSentence把txt文件转为所需要的格式。

# ################# 例2 #########################
from gensim import Word2Vec
from gensim.Word2Vec import LineSentence
# inp为输入语料
inp = 'wiki.zh.text.jian.seg.txt'
# outp1 为输出模型
outp1 = 'wiki.zh.text.model'
# outp2为原始c版本word2vec的vector格式的模型
outp2 = 'wiki.zh.text.vector'
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)
1
2
3
4
5
6
7
8
9
10
11
12
13

关于Word2Vec(…) 模型的参数说明（refer to: gensim实现python对word2vec的训练和计算和word2vec使用说明）：

LineSentence(inp)：应该是把word2vec训练模型的磁盘存储文件（model在内存中总是不踏实）转换成所需要的格式；对应的格式是参考上面的例1。 size：是每个词的向量维度； window：是词向量训练时的上下文扫描窗口大小，窗口为5就是考虑前5个词和后5个词； min-count：设置最低频率，默认是5，如果一个词语在文档中出现的次数小于5，那么就会丢弃； workers：是训练的进程数（需要更精准的解释，请指正），默认是当前运行机器的处理器核数。这些参数先记住就可以了。

说明一下输入语料，输入的是文本文件的格式，其中没一行表示一个文章，而且是经过分词处理的。词与词之间用空格隔开就行了。分词的工具有很多，我一般用的是结巴分词（不知道大家以后没有好的分词工具推荐）。一般来说，训练集越大，结果的泛化性越好，对于专业领域的话，最好能使用专业领域的语料来进行训练。

3.导入模型

# -*- coding: utf-8 -*-
# &lt;nbformat&gt;3.0&lt;/nbformat&gt;
import gensim
# 导入模型
model = gensim.models.Word2Vec.load("wiki.zh.text.model")
1
2
3
4
5
6

4. 模型使用

可以参照官网上的指导迅速了解model的各种功能方法。

4.0 获取词向量

print model[u'汽车']
 type(model[u'汽车'])
1
2
# 结果
[ 3.74845356e-01 1.86477005e+00 1.28353190e+00 8.04618478e-01 ... ]
numpy.ndarray
1
2
3

4.1 计算一个词的最近似的词，倒排序

result = model.most_similar(u'足球')
for each in result:
 print each[0] , each[1]
1
2
3
国际足球 0.556692957878
足球运动 0.530436098576
篮球 0.518306851387
国家足球队 0.516140639782
足球队 0.513238489628
足球联赛 0.500901579857
football 0.500162124634
体育 0.499264538288
足球比赛 0.488131582737
冰球 0.48725092411
1
2
3
4
5
6
7
8
9
10

4.2 计算两词之间的余弦相似度

word2vec一个很大的亮点：支持词语的加减运算。（实际中可能只有少数例子比较符合）

&gt;&gt;&gt; model.most_similar(positive=['woman', 'king'], negative=['man'])
[('queen', 0.50882536), ...]
1
2
sim1 = model.similarity(u'勇敢', u'战斗')
sim2 = model.similarity(u'勇敢', u'胆小')
sim3 = model.similarity(u'高兴', u'开心')
sim4 = model.similarity(u'伤心', u'开心')
print sim1 
print sim2
print sim3
print sim4
1
2
3
4
5
6
7
8
0.254622852224
0.38974887559
0.423695453969
0.376244588456
1
2
3
4

4.3 计算两个集合之间的余弦似度

当出现某个词语不在这个训练集合中的时候，会报错！！！。

list1 = [u'今天', u'我', u'很', u'开心']
list2 = [u'空气',u'清新', u'善良', u'开心']
list3 = [u'国家电网', u'再次', u'宣告', u'破产', u'重新']
list_sim1 = model.n_similarity(list1, list2)
print list_sim1
list_sim2 = model.n_similarity(list1, list3)
print list_sim2
1
2
3
4
5
6
7
0.541874230659
0.13056320154
1
2

4.4 选出集合中不同类的词语

list = [u'纽约', u'北京', u'上海', u'西安']
print model.doesnt_match(list)
list = [u'纽约', u'北京', u'上海', u'西瓜']
print model.doesnt_match(list)
1
2
3
4
纽约
西瓜

python 下的 word2vec 学习

word2vec 自然语言处理 python

安科网

python 下的 word2vec 学习

Joyliness

1.ubuntu下安装gensim

2.训练生成模型

3.导入模型

4. 模型使用

4.0 获取词向量

4.1 计算一个词的最近似的词，倒排序

4.2 计算两词之间的余弦相似度

4.3 计算两个集合之间的余弦似度

4.4 选出集合中不同类的词语

Joyliness

相关推荐

自然语言处理实战：机器学习常见工具与技术

Word2Vec

用户评论情感极性判别

个性化召回算法实践(五)——item2vec

相关的库

30天了解30种技术系列(17)---词关系分析神器Word2vec

使用 LSTM 智能作诗送新年祝福

NLP&深度学习：近期趋势概述

学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人

word2vec

学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec

NLP实验 - word2vec仅用于降维

基于 Gensim 的 Word2Vec 实践

没天赋别怕，NLP技术分分钟让你变身音乐大师

语义表征的无监督对比学习：一个新理论框架

2017年深度学习在NLP领域的这些重大进展与趋势，你知道吗？

基于python的gensim word2vec训练词向量

gensim实现python对word2vec的训练和计算

自然语言处理的一大步，应用Word2Vec模型学习单词向量表征

简述表征句子的3种无监督深度学习方法

Joyliness