BERT or XLNet，NLP巅峰烧钱大战…技术发展太快，如何才能跟得上节奏？

在过去的几个月时间里，Google和Facebook在一场别样的大战上打得火热，自从Google的XLNet横空出世战胜了BERT的记录，Facebook就开始默默憋大招了。上周剧情再次翻转，改进版BERT-RoBERTa登上了GLUE排行榜榜首。这场没有想要的技术攻坚战，在短短一个月内持续发酵。

为了迎合这种变化，我们的课程也在不断迭代更新，保证不错过任何2周之内出现的重要技术。自然语言处理无非是目前最大的风口，从Word2Vec、ElMo、GPT、Bert到XLNet, 我们见证了这个领域的高速发展以及未来的前景。互联网中的大量的文本以及IOT时代赋予我们的全新交互带来了这个领域的爆发。

这次我们迎来了第五期NLP的招生，千万不要觉得这是一个对标其他线上课程的普通的训练营。由于内容的专业性以及深度，在过去吸引了大量的全球顶级名府的学员，这里不乏来自CMU, Columbia, USC, UCSD等美国顶级名校和清北上交等国内名校学员，还有很多准一线的工程师。

我们训练营的特色可以概括为：

体系化、专业性、深度、精细化讲解，

最重要的一点是可以帮助你看到里面的本质、而且能够把零零散散的知识点串起来，

我们只做AI教育，因为这是我们最擅长的领域！

另外，我们配备相应的教材，越早加入就有更多预习准备的时间！

课程大纲

第一阶段算法与机器学习基础

【核心知识点】

. 时间复杂度，空间复杂度分析

. Master's Theorem，递归复杂度分析

. 动态规划以及Dynamic Time Warpping

. Earth Mover's Distance

. 维特比算法

. LR、决策树、随机森林、XGBoost

. 梯度下降法、随机梯度下降法、牛顿法

. Projected Gradient Descent

. L0, L1, L2, L-Infinity Norm

. Grid Search, Bayesian Optimization

. 凸函数、凸集、Duality、KKT条件

. Linear SVM、Dual of SVM

. Kernel Tick, Mercer's Theorem

. Kernelized Linear Regression、Kernelized KNN

. Linear/Quadratic Programming

. Integer/Semi-definite Programming

. NP-completeness/NP-hard/P/NP

. Constrained Relaxation、Approximate Algorithm

. Convergence Analysis of Iterative Algorithm

【部分案例讲解】:

. 基于Sparse Quadratic Programming的股票投资组合优化策略编写

. 基于Earth Mover's Distance的短文本相似度计算

. 基于Projected Gradient Descent和非负矩阵分解的词向量学习

. 基于Linear Programming的机票定价系统

. 基于DTW的文本相似度分析

第二阶段语言模型与序列标注

【核心知识点】

. 文

本预处理技术（tf-idf，Stemming等）

. 文本领域的特征工程

. 倒排表、信息检索技术

. Noisy Channel Model

. N-gram模型，词向量介绍

. 常见的Smoothing Techniques

. Learning to Rank

. Latent Variable Model

. EM算法与Local Optimality

. Convergence of EM

. EM与K-Means, GMM

. Variational Autoencoder与Text Disentangling

.有向图与无向图模型

. Conditional Indepence、D-separation、Markov Blanket

. HMM模型以及参数估计

. Viterbi、Baum Welch

. Log-Linear Model与参数估计

. CRF模型与Linear-CRF

. CRF的Viterbi Decoding与参数估计

【部分案例讲解】：

. 基

于无监督学习方法的问答系统搭建

. 基于监督学习的Aspect-Based 情感分析系统搭建

. 基于CRF、LSTM-CRF、BERT-CRF 的命名实体识别应用

. 基于语言模型和Noisy Channel Model的拼写纠错

第三阶段信息抽取、词向量与知识图谱

【核心知识点】

. 命

名实体识别技术

. 信息抽取技术

. Snowball, KnowitAll, RunnerText

. Distant Supervision, 无监督学习方法

. 实体统一、实体消歧义、指代消解

. 知识图谱、实体与关系

. 词向量、Skip-Gram、Negative Sampling

. 矩阵分解、CBOW与Glove向量

. Contexualized Embedding与ELMo

KL Divergence与

Gaussian Embedding

. 非欧式空间与Pointcare Embedding

. 黎曼空间中的梯度下降法

. 知识图谱嵌入技术

. TransE, NTN 的详解

. Node2Vec详解

. Adversial Learning与KBGAN

【部分案例讲解】：

. 利用非结构化数据和信息抽取技术构建知识图谱

. 任务导向型聊天机器人的搭建

. 包含Intent与Entity Extraction的NLU模块实现

. 基于SkipGram的推荐系统实现（参考Airbnb论文）

第四阶段深度学习与NLP

【核心知识点】

. Pytorch与Tensorflow详解

. 表示学习，分布式表示技术

. 文本领域中的Disentangling

. 深度神经网络与BP算法详解

. RNN与Vanishing/Exploding Gradient

. LSTM与GRU

. Seq2Seq与注意力机制

. Greedy Decoding与Beam Search

. BI-LSTM-CRF模型

. Neural Turing Machine

. Memory Network

. Self Attention，Transformer以及Transformer-XL.

. Bert的详解

. BERT-BiLSTM-CRF

. GPT，MASS, XLNet

. Low-resource learning

. 深度学习的可视化

. Laywer-wise Relevance Propagation

* 由于此领域的飞速发展，我们会在课程进行过程中也会及时更新，确保2周之内新出的重要技术第一时间可以理解并使用。

【部分案例讲解】：

利用纯Python实现BP算法

. 基于Seq2Seq+注意力机制、基于Transformer的机器翻译系统

. 基于Transformer的闲聊型聊天机器人

. 基于BI-LSTM-CRF和BERT-BiLSTM-CRF在命名实体中的比较

. 利用Laywer-wise RP可视化端到端的机器翻译系统

第五阶段贝叶斯模型与NLP

【核心知识点】

概率图模型与条件独立

. Markov Blanket

. Dirichlet分布、Multinomial分布

. Beta分布、Conjugate Prior回顾

. Detail Balance

. 主题模型详解

. MCMC与吉布斯采样

. 主题模型与Collapsed Gibbs Sampling

. Metropolis Hasting, Rejection Sampling

. Langevin Dyamics与SGLD

. 分布式SGLD与主题模型

. Dynamic Topic Model

. Supervised Topic Model

. KL Divergence与ELBO

. Variantional Inference, Stochastic VI

. 主题模型与变分法

. Nonparametric Models

. Dirichlet Process

. Chinese Restarant Process

. Bayesian Deep Neural Network

. VAE与Reparametrization trick

. Bayesian RNN/LSTM

. Bayesian Word2Vec

. MMSB

【部分案例讲解】:

利用Collapsed Gibbs Sampler和SGLD对主题模型做Inference

. 基于Bayesian-LSTM的命名实体识别

. 利用主题模型做文本分类在

. LDA的基础上修改并搭建无监督情感分析模型

第六阶段开放式项目（Optional）

【项目介绍】

开放式项目又称为课程的capstone项目。作为课程中的很重要的一部分，可以选择work on一个具有挑战性的项目。通过此项目，可以深入去理解某一个特定领域，快速成为这个领域内的专家，并且让项目成果成为简历中的一个亮点。

【项目流程】：

Step 1: 组队

Step 2：立项以及提交proposal

Step 3: Short Survey Paper

Step 4: 中期项目Review

Step 5: 最终项目PPT以及代码提交

Step 6: 最终presentation

Step 7: Technical Report/博客

【输出结果】：

完整PPT、代码和Conference-Style Technical Report 最为项目的最后阶段，我们将组织学员的presentation分享大会。借此我们会邀请一些同行业的专家、从业者、企业招聘方、优质猎头资源等共同参与分享大会。

课程设计紧密围绕学术界最新进展以及工业界的需求，涵盖了所有核心知识点，并且结合了大量实战项目，培养学员的动手能力，解决问题能来以及对知识的深入理解。

部分课程项目

课程适合谁？

有良好的机器学习基础，有较强的编程能力
对数据结构与算法比较熟悉
之后想从事相关研究工作、或者之后想申请国外名校读相关专业的硕士/博士
追求技术细节，对背后的why感兴趣，不希望仅仅停留在使用工具层面的学员
已经在AI领域从事工作，但技术上感觉遇到了瓶颈，想进一步突破的学员
希望在工作中可以根据业务需求能够提出新的模型，做一些创新
对NLP领域最新知识体系想有更深入的学习
想转型到一线做AI工程师的学员

课程特色

内容上包含了作为AI顶级工程师必备的核心技术体系
内容上包含了大量最前沿的技术
具备一定的挑战性和深度，区别于市面上的其他同类的课程。
理论与实战的结合，所有的理论会本质层面讲起，而且非常通俗易懂，即便很难理解的BERT, Bayesian NN也会让你能够听得懂并且能够理解。每一个重要的知识点会配备实战讲解以及核心代码review.
包含具有挑战性的课程项目作业和理论作业，这些会帮助你更深入地理解学过的知识点
配备顶尖讲师团队，均在NLP和机器学习领域有很深的研究和工作经验

教学模式

我们主要采用直播的方式，一周4-5次的直播教学，包括2次的main lectures, 1-2次的discussion session (讲解某一个实战、必备基础、案例或者技术上的延伸）， 1次的paper reading session (每周会assign一篇必备论文，并且直播解读)。教学模式上也参考了美国顶级院校的教学体系。以下为其中一周的课程安排，供参考。