公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!
来自 | 知乎
地址 | https://zhuanlan.zhihu.com/p/268130746
作者 | Mr.robot
编辑 | 机器学习算法与自然语言处理公众号
本文已获得作者授权,未经许可禁止二次转载
面试官:你了解ALBERT吗?

面试者:了解
面试官:那你讲下ALBERT跟BERT比有什么优点吧?
面试者:ALBERT的优化点分为三个分部分,分别为Factorized Embedding Parameterization,Cross-layer Parameter Sharing,Sentence Order Prediction。
这三部分是ALBERT对BERT的优化,其中Factorized Embedding Parameterization,Cross-layer Parameter Sharing是对参数量进行优化,大大减少了参数量的数量。Sentence Order Prediction是对BERT预训练任务的优化,提升了BERT的学习效果。
面试官:那你能详细的讲一下这三部分吗?
面试者:好的,那么先说下Factorized Embedding Parameterization,首先说下BERT-base是由12层Transformer中encoder层组成,我们用BERT获得单词或句子的向量表示的时候,使用的Transformer中encoder层的输出值,一般选择倒数第二层的输出值,这一层向量表示效果最好。也就是说Transfomer层的encoder层输出的H是考虑了上下文单词后得到当前单词的向量表示,是上下文相关的。而我们还有个得到输入的向量的表示的部分,通过input_ids得到输入的向量表示E,也就是Embeddding层的处理。BERT中的E和H的维度是相等的,E的维度会H的维度的变大而变大,例如BERT-Large模型中H为1024,E也为1024,这是完全没有必要的,以为我们最终要得到的是H,只要保证H的维度是要求的维度的就可以了。E的维度是可变的,而E是和词表大小息息相关的,即Embeddding层的参数量为V*E,可以将E调整到一个较小的维度,进行优化降低参数量,再通过E*H的变换,将E的维度变换到H的维度。总的参数量也变到了V*E+E*H。(原参数量为V*E)
面试官:那讲一讲Cross-layer Parameter Sharing?
面试者:Cross-layer Parameter Sharing是共享所有层的参数,Transfomer层的encoder部分的参数主要为attention参数和FeedForward的参数,当然LateyNorm也有要学习的参数,不过参数量也别少了。Cross-layer Parameter Sharing主要是共享attention部分的参数和FeedForward部分的参数。这样就大大减少了参数量,但是参数量共享,效果也会下降,论文中通过增加H的维度来进行提升。
面试官:那Sentence Order Prediction哪?
面试者:Sentence Order Prediction是对BERT的NSP预训练进行优化。RoBerta也提出了NSP的预训练效果不是很好,直接将NSP的预训练任务直接去掉了。NSP预训练任务将Topic Prediction和Coherence prediction融合起来了,只要判断两个句子是不是一个Topic的就能对预训练任务出个大概的结果了。Topic Prediction任务非常简单,大大降低了学习的难度。论文通过将负样本换成同一篇文章中的两个逆序句子,来消除Topic prediction,提升预训练任务的学习效果。
面试官:好了,你面试通过了
PS:如果大家在面试中遇见ALBERT其他的问题也可以留言补充
参考链接:
如何看待瘦身成功版BERT——ALBERT?- 小莲子的回答 - 知乎 zhihu.com/question/3478
下载1:四件套
在机器学习算法与自然语言处理公众号后台回复“四件套”
即可获取学习TensorFlow,Pytorch,机器学习,深度学习四件套!
下载2:仓库地址共享
在机器学习算法与自然语言处理公众号后台回复“代码”
即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
重磅!机器学习算法与自然语言处理交流群已正式成立
群内有大量资源,欢迎大家进群学习!
额外赠送福利资源!邱锡鹏深度学习与神经网络,pytorch官方中文教程,利用Python进行数据分析,机器学习学习笔记,pandas官方文档中文版,effective java(中文版)等20项福利资源
获取方式:进入群后点开群公告即可领取下载链接
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
继续阅读
阅读原文