nlp学习杂记
什么是 token embedding?
输入一个word,在字典里查找得到它对应的下标就是token,然后用该数字下标去lookup表查找得到该词对应的词向量(词嵌入)就是embedding
词袋模型(Bag of Words, BOW)
词袋模型就是将句子分词,然后对每个词进行编码,常见的有one-hot、TF-IDF、Huffman编码,假设词与词之间没有先后关系。
词向量(Word Embedding)模型
词向量模型是用词向量在空间坐标中定位,然后计算cos距离可以判断词于词之间的相似性。
什么是cbow
输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量,即先验概率。
什么是skip-gram
Skip-Gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量,即后验概率。
相关推荐
ElmStudios 2020-04-18
csdnfelix 2020-11-12
saluzirobot 2020-11-05
yyhhlancelot 2020-11-04
mxs 2020-10-26
熊Ok 2020-10-26
cswingman 2020-10-05
hxq 2020-09-23
熊Ok 2020-09-22
MakeRoomFor 2020-08-30
yyhhlancelot 2020-08-26
龙心尘 2020-08-25
mxs 2020-08-10
天才幻想家 2020-08-03
PaddlePaddle 2020-07-30
yyhhlancelot 2020-07-06
WarGamesdc 2020-06-30
NgCafai 2020-06-28
bensonrachel 2020-06-21