Reddit高赞课程:基于GitHub的超全NLP视频、PPT、作业
编辑:肖琴
整理:三石
【新智元导读】Yandex近日开放了一个自然语言理解课程,包含嵌入、注意力模型等NLP相关的大量主题,并且所有视频讲座、PPT、作业等都可以直接从GitHub库获取,相当实用。
Yandex近日开放了内部的自然语言理解课程。
这是一个基于GitHub的课程,涵盖嵌入、sequence-to-sequence、注意力模型等一系列主题。
课程包含视频讲座,PPT,每周的jupyter的作业(colab友好)和大量的链接,非常具有实用性,在Reddit机器学习板块获得高赞。
地址:
https://github.com/yandexdataschool/nlp_course
YSDA自然语言理解课程
- 每周的讲座和研讨会材料都在./week*文件夹中
- 可以直接从这个repo创建云jupyter session
- 作业列在Anytask course页面
- 任何技术问题、想法、课程材料中的bug、贡献想法等,可以通过添加issue提交
- 安装库和故障教程
课程安排
第一周:嵌入(Embeddings)
讲座:Word embeddings。分布式语义、LSA、Word2Vec、GloVe。为什么以及何时需要它们。
研讨会:单词和句子嵌入。
第二周:文本分类
讲座:文本分类。经典的文本表示方法:BOW、TF-IDF。神经方法:嵌入、卷积、RNN
研讨会:使用卷积神经网络进行薪酬预测;;解释网络预测。
第三周:语言模型
讲座:语言模型:N-gram和神经方法; 可视化训练模型
研讨会:使用语言模型生成ArXiv论文
第四周:Seq2seq/Attention
讲座:Seq2seq: encoder-decoder 框架。注意力模型:Bahdanau模型。自注意力模型、Transformer。Pointer networks;用于分析的注意力模型。
研讨会:酒店和宿舍描述的机器翻译
第05周:结构学习
讲座:Structured Learning:结构感知器、结构预测、动态预言、RL基础知识。
研讨会:POS tagging
第六周:期望最大化(Expectation-Maximization)
讲座:期望最大化和单词对齐模型
研讨会:实现期望最大化
第07周:机器翻译
讲座:机器翻译:回顾PBMT的核心思想,过去3年基于NMT开发的应用程序,以及该领域的一些开放性问题。
研讨会:学生演讲
(持续中...)
获取地址:
https://github.com/yandexdataschool/nlp_course