word2vec初探（用python简单实现）

BitTigerio

2017-12-27

为什么要用这个?

因为看论文和博客的时候很常见,不论是干嘛的,既然这么火,不妨试试.

如何安装

从网上爬数据下来
对数据进行过滤、分词
用word2vec进行近义词查找等操作

完整的工程传到了我的github上了:https://github.com/n2meetu/word2vec.git

运行结果：

需要安装的包，可以用pycharm的preference：

点「+」加号

同样，点「+」加号。过一会儿会提示你安装是否成功的。

整个的文件结构：

-语料（网上爬下来的）
-自定义词典
-主要的python文件

主要的py文件：

# -*- coding: utf-8-*-
import jieba
from gensim.models import word2vec

#  去掉中英文状态下的逗号、句号
def clearSen(comment):
    comment = comment.strip(' ')
    comment = comment.replace('、','')
    comment = comment.replace('~','。')
    comment = comment.replace('～','')
    comment = comment.replace('{"error_message": "EMPTY SENTENCE"}','')
    comment = comment.replace('…','')
    comment = comment.replace('\r', '')
    comment = comment.replace('\t', ' ')
    comment = comment.replace('\f', ' ')
    comment = comment.replace('/', '')
    comment = comment.replace('、', ' ')
    comment = comment.replace('/', '')
    comment = comment.replace(' ', '')
    comment = comment.replace(' ', '')
    comment = comment.replace('_', '')
    comment = comment.replace('?', ' ')
    comment = comment.replace('？', ' ')
    comment = comment.replace('了', '')
    comment = comment.replace('➕', '')
    return comment

# 用jieba进行分词
comment = open('./corpus/comment.txt').read()
comment = clearSen(comment)
jieba.load_userdict('./user_dict/userdict_food.txt')
comment = ' '.join(jieba.cut(comment))

# 分完词后保存到新的txt中
fo = open("./corpus/afterSeg.txt","w")
fo.write(comment)
print("finished!")
fo.close()

# 用 word2vec 进行训练
sentences=word2vec.Text8Corpus(u'./corpus/afterSeg.txt')
# 第一个参数是训练语料，第二个参数是小于该数的单词会被剔除，默认值为5, 第三个参数是神经网络的隐藏层单元数，默认为100
model=word2vec.Word2Vec(sentences,min_count=3, size=50, window=5, workers=4)

y2=model.similarity(u"不错", u"好吃") #计算两个词之间的余弦距离
print(y2)

for i in model.most_similar(u"好吃"): #计算余弦距离最接近“滋润”的10个词
    print(i[0],i[1])

# 训练词向量时传入的两个参数也对训练效果有很大影响，需要根据语料来决定参数的选择，好的词向量对NLP的分类、聚类、相似度判别等任务有重要意义

清洗数据的clearSen()不要笑。萌新就是这样很傻很粗暴的……

word2vec python 自然语言处理机器学习

BitTigerio

0 关注 0 粉丝 0 动态

相关推荐

自然语言处理实战：机器学习常见工具与技术

许多自然语言处理都涉及机器学习，所以理解机器学习的一些基本工具和技术是有益处的。有些工具已经在前几章中讨论过，有些还没有，但这里我们会讨论所有这些工具。数据选择和特征工程会带来偏见的风险。类似的种族、宗教甚至地理区域偏见在原始的Word2vec模型中普遍存

lirika 2020-09-27

Word2Vec

Word2Vec是词的一种表示，将词以固定的维数的向量表示出来。其优点：基于词袋模型的独热编码方式在判定同义词和相似句子的时候效果不是很好，而Word2Vec充分利用上下文信息，对上下文进行训练，每个向量不在是只有一个位置为1，其余位置为0 的稀疏向量。实

sxyhetao 2020-04-14

用户评论情感极性判别

本文章介绍百度点石平台上的一个训练赛的赛题代码，赛题是包括用户评论文字的情感判别的分类问题，赛题链接戳此处。使用测试数据和训练数据生成语料库。# 该函数作用是读取文件。csvfile.write#以空格隔开把分好的词写入文件，形成语料。利用语料库，使用wo

pySVNA 2019-12-24

个性化召回算法实践(五)——item2vec

item2vec将用户的行为序列转化成item组成的句子，模仿word2vec训练word embedding将item embedding。基本思想是把原来高维稀疏的表示方式映射到低维稠密的向量空间中，这样我们就可以用这个低维向量来表示该项目(电影)，进

yishujixiaoxiao 2019-10-30

相关的库

Natural Language Toolkit :主要是针对英文，大而全的研究性软件包，可以使用其分类功能

zhujianing 2017-08-14

30天了解30种技术系列(17)---词关系分析神器Word2vec

我本人是自然语言处理的从业者，同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.Word2vec 是由Google开源，基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似

快看是Charlie 2015-08-21

使用 LSTM 智能作诗送新年祝福

LSTM 介绍序列化数据即每个样本和它之前的样本存在关联，前一数据和后一个数据有顺序关系。循环神经网络广泛应用在自然语言处理领域，今天我们带你从一个实际的例子出发，介绍循环神经网络一个重要的改进算法模型-LSTM。本文章不对LSTM的原理进行深入，想详细了

aaJamesJones 2019-07-01

NLP&深度学习：近期趋势概述

在最近发表的论文中，Young及其同事汇总了基于深度学习的自然语言处理系统和应用程序的一些最新趋势。在这篇全面的综述中，你可以详细了解NLP深度学习的过去，现在和未来。此外，你还将学习一些在NLP中应用深度学习的最佳实践。Collobert和Weston

WisdomXLH 2019-06-28

学习笔记CB012: LSTM 简单实现、完整实现、torch、小说训练word2vec lstm机器人

真正掌握一种算法，最实际的方法，完全手写出来。LSTM特殊递归神经网络，神经元保存历史记忆，解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。100多行原始python代码实现基于LSTM二进制加法器。import copy, numpy

五小郎的学习笔记 2019-06-27

word2vec

word2vec是用一个一层的神经网络把one-hot形式的词向量映射为分布式形式的词向量，为了加快训练速度，用了Hierarchical softmax，negative sampling 等trick。词向量首先是词向量，图像和音频等信号都可以用一个矩

yukyinbaby 2019-06-27

学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec

人工神经网络，借鉴生物神经网络工作原理数学模型。由n个输入特征得出与输入特征几乎相同的n个结果，训练隐藏层得到意想不到信息。人工神经网络模型，多层神经元结构建立，每一层抽象一种思维过程，经多层思考，得出结论。神经网络每一层有每一层专做事情，每一层神经元添加

yuzhou 2019-06-26

NLP实验 - word2vec仅用于降维

result.write去除停用词可以read停用词词典，也可以用import jieba.posseg.cut检测词性为x的词，和加载自定义词典不同，自定义词典决定了分词结果，所以必须使用jieba内置函数。yield line如果不检查后缀，可能出现

xiaocao0 2019-06-26

基于 Gensim 的 Word2Vec 实践

Word2Vec基于 Gensim 的 Word2Vec 实践，从属于笔者的程序猿的数据科学与机器学习实战手册，代码参考gensim.ipynb。推荐前置阅读Python语法速览与机器学习开发环境搭建，Scikit-Learn 备忘录。模型创建Gensim

mori 2019-06-21

没天赋别怕，NLP技术分分钟让你变身音乐大师

机器学习算法变革了视觉领域与NLP领域，那音乐领域呢？近年来，音乐信息检索发展势头迅猛。本文将探讨如何将NLP领域的技术应用到音乐领域。近期，在Chuan、Agres和 Herremans 联合发表的一篇论文中，他们论述了用Word2vec表示复调音乐的

minerzhu 2019-05-21

语义表征的无监督对比学习：一个新理论框架

诸如图像、文本、视频等复杂数据类型的语义表征已成为机器学习的核心问题，并在机器翻译、语言模型、GAN、域迁移等领域中出现。这些都会涉及学习表征函数，即每个数据点的表征信息都是“高级别” 和“紧凑“ (低维)。衡量语义表征好坏的一个标准是，它能够通过少

FZUrxd 2019-03-29

2017年深度学习在NLP领域的这些重大进展与趋势，你知道吗？

过去几年，深度学习架构和算法在图像识别和语音处理等领域取得了重大的进步。不过现在，NLP领域取得的一系列进展已证明深度学习技术将会对自然语言处理做出重大贡献。一些常见的任务如实体命名识别，词类标记及情感分析等，自然语言处理都能提供最新的结果，并超越了传统方

lingpy 2017-12-14

基于python的gensim word2vec训练词向量

corpora.bleicorpus – Corpus in Blei’s LDA-C format. models.dtmmodel – Dynamic Topic Models and Dynamic Influence Models

cenylon 2018-09-05

gensim实现python对word2vec的训练和计算

词向量原始的代码是C写的，python也有对应的版本，被集成在一个非常牛逼的框架gensim中。我在自己的开源语义网络项目graph-mind中使用了这些功能，大家可以直接用我在上面做的进一步的封装傻瓜式地完成一些操作，下面分享调用方法和一些code上的心

manongpengzai 2018-09-05

python 下的 word2vec 学习

为了保证安装成功，首先升级一下easy_install工具。1之后使用easy_install进行安装，使用apt-get安装会遇到编码出错，不知为什么，使用easy_install安装成功就行了。2结果在import gensim 中还出现了点小错误，缺

Joyliness 2018-09-05

自然语言处理的一大步，应用Word2Vec模型学习单词向量表征

选自TowardsDataScience，作者：Suvro Banerjee，机器之心编译，参与：Pedro、张倩。在常见的自然语言处理系统中，单词的编码是任意的，因此无法向系统提供各个符号之间可能存在关系的有用信息，还会带来数据稀疏问题。使用向量对词进行

TangowL 2018-07-31

BitTigerio

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号