【Github】100+ Chinese Word Vectors 上百种预训练中文词向量

（给机器学习算法与Python学习加星标，提升AI技能）

该项目提供了不同表征（密集和稀疏）上下文特征（单词，ngram，字符等）和语料库训练的中文单词向量。开发者可以轻松获得具有不同属性的预先训练的向量，并将它们用于下游任务。

此外，该库还提供了一个中文类比推理数据集CA8和评估工具包，供用户评估他们的单词向量的质量。

格式

预先训练好的向量文件是 text 格式，每行包含一个单词和它的向量，每个值由空格分隔。第一行记录元信息：第一个数字表示文件中的字数，第二个表示维度。

除了密集的单词矢量（用 SGNS 训练）之外，我们还提供稀疏矢量（用 PPMI 训练）。它们与 liblinear 的格式相同，其中“：”之前的数字表示维度索引，“：”之后的数字表示该值。

Github：

https://github.com/Embedding/Chinese-Word-Vectors

基础设置

不同的领域

用不同的表示法，上下文特征和语料库训练的中文单词向量。

*本库提供了字符嵌入，因为大部分古汉字都是独立的字符。

本库根据不同的共现信息发布单词向量，目标向量和上下文向量在相关论文中被称为输入和输出向量。

这一部分，可以获取词层面之上的任意语言单元向量。例如，汉字向量包含在词-汉字的上下文向量中。所有向量都在百度百科上使用 SGNS 训练。

推荐阅读

手绘日漫版的新垣结衣见过没？这个开源动漫生成器让你的照片秒变

教程资源 | 5天玩转PyTorch深度学习，从GAN到词嵌入都有实例

技巧 | 30招教你顺滑切换Python3

PDF+视频 | 欲学机器学习必先掌握Shell，自制教程

继续阅读

关键词

向量

单词向量

字符

上下文向量

预先训练