公众号关注 “ML_NLP”

设为 “星标”，重磅干货，第一时间送达！

来源 | PaperWeekly

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

随着 NLP 的发展，像 Word2Vec、Glove 这样的词向量模型，正逐渐地被基于 Transformer 的 BERT 等模型代替，不过经典始终是经典，词向量模型依然在不少场景发光发热，并且仍有不少值得我们去研究的地方。本文我们来关心一个词向量模型可能有的疑惑：词向量的维度大概多少才够？

先说结论，笔者给出的估算结果是：

更简约的话可以直接记，其中 N 是词表大小，n 就是词向量维度，是自然对数。当 n 超过这个阈值时，就说明模型有足够的容量容纳这 N 个词语（当然 n 越大过拟合风险也越大）。

这样一来，当 N=100000 时，得到的 n 大约是 96，所以对于 10 万个词的词向量模型来说，维度选择 96 就足够了；如果要容纳 500 万个词，那么 n 大概就是 128。

背景

之所以想起这个问题，是因为昨天在 Arxiv 上刷到了论文 Word2vec Skip-gram Dimensionality Selection via Sequential Normalized Maximum Likelihood[1] ，遗憾的是，从这篇论文中笔者并没有找到想要的答案。顺带搜索了一下，发现也有类似文献研究同样的问题，比如 On the Dimensionality of Word Embedding[2]，但答案依旧不是笔者想要的。

为什么这样说呢？很显然，这个问题的最标准答案应该是靠反复实验来确定最优维度，所以不能指望理论分析给出相当精确的答案。

我们平时用到的词向量维度，一般有 64、100、128、256、300 等，不同的维度之间效果差别其实也没多少，所以笔者只希望能从最简洁直观的方式推导一下一般词向量模型所需要的维度量级，比如几十或者几百，不应该出现太过复杂的分析。

由于没有找到比较满意的现有结果，因此笔者从最小熵原理角度分析了一下，得到了一个接近自己心中所想的答案。

分析

本文要分析是基于 Skip Gram 思想的词向量模型，多数词向量模型其实都是它的变种，至于 CBOW 类的模型，在以往的实验里，它的表现其实跟 Skip Gram 差不多（尤其是数据量较大时），因此可以认为 Skip Gram 的分析结果应该是通用的。

2.1 最小熵

我们的出发点是信息熵，我们知道，熵是不确定性的度量（参考“熵”不起：从熵、最大熵原理到最大熵模型（一）[3] ），语言本身具有一定的不确定性，而我们在用向量编码词语时，编码结果应该要等于甚至小于这种不确定性，才能保证这种编码是有效的、能充分保留原来语言的信息。所以，我们要消除不确定性，也就是要最小熵。

要注意的是，词向量是基于 Skip Gram 模型的，所以我们要计算的不是词平均熵，而是整个 Skip Gram 模型的平均熵，假设词对的频率是，那么可以估算它的熵为：