马赛克背后的“秘密”

作者 | Michael Zhang 麦教授

一个工作玩耍两不误（work hard, play harder）的教授

清华大学经管学院Irwin and Joan Jacobs讲席教授

前香港中文大学商学院讲席教授，副院长，香港深圳联合金融研究中心主任

超量子量化私募基金创始人

麻省理工学院（MIT）博士

清华大学文学学士、工学学士、管理学硕士

越是刻意隐藏的信息往往越是容易吸引人的注意。

人们总是对编辑过或是刻意隐藏的信息充满好奇，并且会试图还原编辑和解码隐藏信息。

1000美元比特币的故事

法国电视台曾在2017年播出过一部关于比特币的纪录片。

片中采访了被称为比特币耶稣(Bitcoin Jesus)的Roger Ver，他决定赠送1000美元的比特币给观众，先（看）到先得。

然而，纪录片在播出的时候，由于电视台没有获得电视转播赠送金钱奖品的授权，分享的比特币钱包二维码和私钥被打了码。

△电视节目播出画面

△被打码的二维码

故事本来到这里就结束了——这1000美元可能没有观众拿到，唯一有机会领取的只有录制采访的工作人员。

但或许是不想让观众失去这1000美元。在采访的最后，节目中展示了清晰的二维码的一小部分。

△露出一部分的二维码

两名研究人员通过不同摄像机镜头透露的微小信息，结合关于二维码编码方案的知识，经过16小时的手动逆向工程，成功恢复了被模糊掉的私钥并领取了奖金。

虽然这种二维码的破解比较特别，并且结合了不同的技术，但更多通用的恢复模糊信息的方法也已经公布了。

比如人工智能领域。早在2016年，就有研究提出一种基于GAN的超分辨率和文本识别算法TextSR，用来识别低分辨率的文本。

杜克大学也提出了一种新型超分辨率算法PULSE，可以从低分辨率的图像中恢复高分辨率的人脸图像。

该算法根据输入的模糊图像，使用GAN生成人脸，并对其进行调整（downscale，降频），直到调整后的版本与输入图像相匹配。

由于模糊的图像也可以看作是低分辨率的图像，任何基于人工智能的图像“超分辨率算法”都可能适合用来做模糊图像还原处理。（例如ISR或TecoGAN（具有时序一致性的GAN））

△TecoGAN(第1行:参考，第2行:TecoGAN输出，第3行:TecoGAN输入)

这些算法的表现看上去都很好，但由于涉及到了人工智能的创造力，它们生成的结果并不完全可信。杜克大学在PULSE算法的介绍中也明确表示了这一点：

“我们注意到很多人担心PULSE将被用于识别脸部被模糊的个人。我们想强调的是，这是不可能的——PULSE做出不存在的人的假想脸，不应该与真实的人相混淆。它不会帮助识别或重建原始图像。”

但是对于黑客来说，他们仍然可以通过这种方式发现编辑过的二维码或信用卡号码，并通过校验检查其有效性。

所以，目前我们常用和常见的一些信息打码的方式其实是不安全的，比如马赛克。

下面是两种常见的模糊信息的方式。

1）马赛克/像素化/线性盒滤波：多个像素被合并成一个更大的像素，其颜色是原始像素值的平均值。这种方法处理后的信息都是像素化的方块。

2）高斯模糊（或类似的）：使用一个特定的内核，每个像素的新颜色都受到其周围像素的影响（通过加权平均）。这种方法处理后的信息看起来就像隔着一层毛玻璃一样模糊。

这里主要讨论第一种方式。

先说结论，用马赛克模糊信息并不可靠，隐藏的信息极易被泄露。

由于线性盒滤波是一种确定的算法，对相同的数值进行像素化，所以会产生相同的像素化块。

基于该算法的特性，对相同的文本进行像素化，使用相同位置的块，将产生相同的块值。利用这一点可以尝试对文本进行像素化以找到匹配的模式。

这样一来，还原像素化信息的核心就在于，对潜在的输入数据进行像素化处理，然后比较结果。与字典攻击（Dictionary Attack）类似，只对可能的输入进行比较，大大提高了暴力破解的效率。

这些方法还利用了马赛克“哈希函数”的缺失雪崩效应。当输入图像中的一个细节发生变化时，这只会影响到输出图像中的一个小区域。

因此，可以将问题划分为更容易解决的子问题，只搜索较小区域的匹配。

GitHub上一个还原像素化图像信息的工具Depix，用的就是这种方法来恢复文本的。

使用Depix需要一个具有预期字符的De Bruijn序列，其字体设置与被模糊图像相同（如文字背景、大小和颜色）。

△De Bruijn序列

其破解过程是：取一个预期字符的De Bruijn序列，将其粘贴在同一个编辑器中，并对其截图。该截图被用作类似区块的查询图像，通过比较和匹配，一步步还原文本。

对于大多数像素化的图像，该工具似乎能找到单一匹配块的结果。

它假定这些结果是正确的，然后比较周围多匹配块的匹配结果，使其与像素化图像中的几何距离相同。这些匹配结果也被视为正确。

在正确的块没有更多的几何匹配后，它将直接输出所有正确的块。对于多重匹配的块，它输出所有匹配的平均值。

虽然这种方法还原的文本大多数字符都可以辨认，但其限制条件较多，还原的效果也并不是很好，很多地方还是糊的。

Jumpsec Labs的一位研究员指出，由于现实世界中的例子总是有一些细微的变化和噪音，很容易给识别带来麻烦，所以实际上Depix并没有想象中的好用。

于是，他们发起了一个挑战，如果能够破解下面被打码图片中的信息，就可以领取奖励。

网络安全公司Bishop Fox的首席研究员Dan Petro接受了这个挑战。他开发了一个名为Unredacter的工具，仅用了几分钟就成功破译了图片中模糊掉的信息。

Unredacter输出的结果（已做模糊处理）

再把输出的结果打码（见下图）。

△上图：挑战赛原始图片（按灰度处理，底排固定）下图：Unredacter的猜测结果

可以看到，这个结果跟原始的图片是非常接近的。

Jumpsec Labs的回复也证实了Unredacter输出的结果是正确的。

△Jumpsec Labs回复Dan的邮件

值得注意的是，Dan的算法相较Depix更具有通用性。无论是在GiMP、Photoshop或其它编辑器中，用类似涂抹的方式打马赛克，其结果都是一样的。

最后，在Dan的帖子中，他提出了一种相比马赛克更安全的打码方式，那就是用黑色条来遮挡重要信息。

▼

往期精选

▼

继续阅读

阅读原文

关键词

马赛克

算法

像素化

超分辨率

图像中