AI 的黑暗面：我们与一个难辨真伪的世界有多远？

来做一个小测试吧，在上面的这段音频里，哪一个是真实的人声?

答案是……一个都没有！

不论是霉霉说的中文，还是郭德纲和赵本山说的英文，都是 AI 生成的。「科技早知道」主播丁教也尝试了一下，虽然生成语音的流畅度和语调自然度还有提升空间，但音色之相似，已经让办公室里的小伙伴大呼震惊了。

深度伪造（deepfake，「deep learning」和「fake」的合成词，指利用人工智能技术实时伪造面部表情、人声，并合成高仿真视频与音频）的能力已经如此出众，真是让人兴奋，但也不禁让人产生一丝疑虑甚至恐惧，潘多拉的盒子被打开了吗？

声动活泼

现在有很多利用深度伪造诈骗的新闻，且成功率惊人，比如用 AI 换脸技术 10 分钟骗走 430 万元。还有传言说只要 3 秒钟音频就可以克隆一个人的声音，或只要一张照片就能实现换脸，这是真的吗？利用 AI 犯罪这么容易吗？

Adrian

事实上，用 AI 生成类似真实人声的声音其实挺难的，因为你需要某个人大量的声音样本，才能实现真实的合成效果。仅仅依靠一小段音频，比如你在社交媒体上发布的语音，想要实现高仿真是不太可能的。

不过在研究领域，确实有一些 AI 技术能利用相当短的样本合成一段相当不错的音频。此前微软就开发出一款相当高质量的文本转语音 AI 模型。

声音样本越独特，复制起来就越容易。所以假如你想克隆兔八哥这样著名卡通人物的声音相当容易，相比之下，复制一个普通人的声音就没那么简单了，因为普通的人声通常没有卡通人物那样极容易辨别的特征。

对于那些还在研发中的 AI 算法来说，几秒钟的样本做出的合成语音其实已经能让人信服，但这也取决于你想要说服谁了。假如有人自称是你的亲人或朋友，只要你有理由怀疑对方的身份，那 AI 生成的声音大概率就骗不了你。

当然，在一些场景中，你很难确认对方是谁。比如在电话里，AI 的合成技术能模拟出声音失真的效果，会让你感觉更真实。在两三年里，合成这种高仿真音频差不多可以成为每个人触手可及的事了。

声动活泼

那当我们不太确信来电的是真人还是 AI 语音时，有什么方法能够快速验证？

Adrian

如果你怀疑正在和你对话的是 AI 语音，那么你可以引导其说出一些特定的话，从而帮你判断真伪。

同样需要引起注意的是，如果没有足够的声音样本，AI 就无法准确捕捉说话者的个人特质。也就是说，一个人其实是有多种方式来表达同一个意思的。所以在几秒钟的语音片段里，要模仿一个人的声音、腔调、嗓音，甚至生理结构特征，某种程度上是比较容易的，但要准确还原一个人说话的习惯和方式，就需要大量样本了。

另外，如果我们想渲染一句话，那渲染的时间通常是这句话时长的 10 至 100 倍，比如要渲染 2 秒钟的 AI 音频，至少需要 20 秒才能达到相对差强人意的效果，而要获得较高质量的音频，则需要 200 秒。所以目前实时交互的 AI 语音还是很难实现的。

不过，在不远的未来， AI 会做得更出色，会变得更擅长像人类一样自然地表达。

▲宾夕法尼亚大学沃顿商学院教授伊森·莫里克（Ethan Mollick）使用自己的照片（左），在人工智能平台上生成了自己的深度伪造视频（右）。| 图源：npr

声动活泼

在深度伪造技术快速发展的同时，也有不少公司竞相开发深度伪造的探测器。有一款被广泛应用的工具叫 GPT Zero，号称能够快速检测出文本是由 AI 生成还是人类生成的。据报道，哈佛大学、耶鲁大学和罗德岛大学的教师使用了这一工具，检测学生的作业到底是不是 AI 生成的。这些工具的准确率到底有多高呢？

Adrian

这就猫捉老鼠的游戏一样。每种工具都在不断发展，都希望最终能超越另一种工具。如果你的孩子在这样的学校，那我强烈建议你让他们赶快换一所。假如一所学校让你的孩子避免接触正在发展的 AI 技术，那简直就是「教育」他们如何在劳动力市场上彻底失败。每所学校，特别是大学都应该竭尽所能地让学生及时了解和掌握这些技术。

我觉得学校可以做的反而是提高论文写作标准，并且告诉学生充分利用ChatGPT 或任何能获得的 AI 工具去完成一篇能力范围内最出色的论文。

Leander

早先大部分的的测试是二元分类的，比如给你一篇文章，你来分辨它是机器生成的还人工的，但很快大家发现在实际生活中不是这样的模式，一篇文章出来，可能一半是人工，一半是机器。

后来也有新的基准测试集出来。比如提供一个 10 句话的样本，第一句是人工的，第二句到第十句之间，可能在某一个点上由机器生成，然后用算法句来鉴别在哪一个点上开始由机器生成。但到目前为止，数据集的表现还达不到可用的状态，有很多错误。因为在大多数情况下，两者真是太像了。

声动活泼

如果我们指望不上 AI 内容探测工具，那大公司，特别是平台，是否有相关技术和政策去发现不良的 AI 内容？

Leander

你可以把平台和虚假信息制造者的关系，想象成是警察抓坏人。大家都在迭代，以前是造假者每天往前一步，平台往前一步，有了 AI，可能造假者一天就会走 100 步，对于平台来说，也需要一天走 100 步，才能抓住他们，这其实是永无止境的。

对平台来说，要定位虚假信息，传统的逻辑是，在平台内每天追踪虚假信息相关的一些指标，如果这个指标嗖嗖往上涨，就去找原因，发现是什么内容造成的；这一类内容会被人工标注，说明它违反了哪一类规则，如果是此前没有的规则，还涉及到制定新规则；之后人工标注的数据会再返给机器学习，机器才可以识别出虚假信息。这其实是要花时间的，特别是涉及到外部政策调整的时候。

虚假信息出现和被封锁之间总会有一个时间差。

声动活泼

上一次美国大选时，网上充斥着不少虚假信息。距离下一轮美国大选还有一年时间，现在平台会不会有一些措施？

Leander

社交平台现在通常都会设立一个「新闻团队」，专门负责新闻相关内容的收集、分发和标注，尽可能确保其质量。

同时，平台也鼓励更多可信赖的信息源，比如认证过的媒体，类似《华尔街日报》《纽约时报》或一些在当地比较有知名度的媒体，这些可信赖的信息源在平台内部的打分会更高。

另外，在过去的选举中，我们发现大规模的假新闻都是有组织的，平台可以通过社交网络追溯这些信息。一般来说，这些 IP 或者账号之间会有一定联系，例如互相转发、点赞，或在某个时间具有相似的行为模式，通过追踪，我们可以对它们聚类，然后整体打击。

声动活泼

事实上，各大平台已经采取了一系列措施。例如，欧盟通过了人工智能法案；TikTok 要求创作者在使用 AI 时必须披露；Meta、微软、Google、OpenAI 和亚马逊等科技公司也自愿承诺，会标记 AI 生成的内容；Google 还宣布从 11 月开始，平台上所有政治广告中人工智能生成的内容都必须声明。尽管各平台已经实施了许多监管政策，但为什么不统一制定一个 AI 生成标准，或类似于水印的机制，使得 AI 生成的内容更容易被识别出来？

Leander

现在所有人的目的首先还是增长，要推广自己的 AI 产品。在这种攻城略地求增长的阶段，大家不太会坐下来谈一谈安全问题，搞一个协议。一般在「战争」结束，你的地盘我抢不动了，我的地盘你也抢不动了的时候，大家才会坐下来聊这个问题。

声动活泼

大平台寻求增长可以理解，那普通 AI 创业者的逻辑又是什么样的？

Adrian

硅谷的文化就是技术越优秀越好。你的产品可能会以某种负面的方式被使用，但只要也能展示出有价值或积极的一面，那么就应该继续发展下去，并努力寻找其他方式来抑制消极影响，而不是去回避这一技术。

在硅谷，我们非常重视创造力，对创造力和技术创新的热爱远远超过了其他顾虑。