一分钟搞懂的算法之BPE算法

阅读大概需要2分钟

昨天总结实验数据分析的时候发现一个机器翻译的其中的一个脚本，其中用到的算法就是BPE算法，刚开始感觉很高大上的，因为总是听到带上算法帽子的东西就觉得666。等自己好好研究研究，网上各种找资料才知道，其实还挺好理解的，所以真的应了那句老话，眼见为实呀。

总说

BPE，（byte pair encoder）字节对编码，也可以叫做digram coding双字母组合编码，主要目的是为了数据压缩，算法描述为字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。具体在下面描述。该算法首先被提出是在Philip Gage的C Users Journal的 1994年2月的文章“A New Algorithm for Data Compression”。

算法过程

这个算法个人感觉很简单，下面就来讲解下：

比如我们想编码：

aaabdaaabac

我们会发现这里的aa出现的词数最高（我们这里只看两个字符的频率），那么用这里没有的字符Z来替代aa：

ZabdZabac

Z=aa

此时，又发现ab出现的频率最高，那么同样的，Y来代替ab：

ZYdZYac

Y=ab

Z=aa

同样的，ZY出现的频率大，我们用X来替代ZY：

XdXac

X=ZY

Y=ab

Z=aa

最后，连续两个字符的频率都为1了，也就结束了。就是这么简单。

解码的时候，就按照相反的顺序更新替换即可。

参考

Byte pair encoding

https://en.wikipedia.org/wiki/Byte_pair_encoding

下一篇预告：

TreeLstm Sentiment Classification 树形LSTM情感分类理论篇

每日托福单词

profound adj. 深刻的，深奥难懂的

metabolic adj. 新陈代谢的

genetic adj.遗传的，起源的

probe v. 调查，探索

symbiosis n.共生，互惠

推荐阅读：

实例快速上手shell脚本

300G学习资料愿和大家共享

【干货】神经网络SRU

基于attention的seq2seq机器翻译实践详解

【干货】基于注意力机制的seq2seq网络

欢迎关注深度学习自然语言处理公众号，我会在这里记录自己在路上的一点一滴！再小的人也有自己的品牌！期待和你一起进步！

继续阅读

阅读原文