来做一个小测试吧,在上面的这段音频里,哪一个是真实的人声?
答案是……一个都没有!
不论是霉霉说的中文,还是郭德纲和赵本山说的英文,都是 AI 生成的。「科技早知道」主播丁教也尝试了一下,虽然生成语音的流畅度和语调自然度还有提升空间,但音色之相似,已经让办公室里的小伙伴大呼震惊了。
深度伪造(deepfake,「deep learning」和「fake」的合成词,指利用人工智能技术实时伪造面部表情、人声,并合成高仿真视频与音频)的能力已经如此出众,真是让人兴奋,但也不禁让人产生一丝疑虑甚至恐惧,潘多拉的盒子被打开了吗?
声动活泼
现在有很多利用深度伪造诈骗的新闻,且成功率惊人,比如用 AI 换脸技术 10 分钟骗走 430 万元。还有传言说只要 3 秒钟音频就可以克隆一个人的声音,或只要一张照片就能实现换脸,这是真的吗?利用 AI 犯罪这么容易吗?
Adrian
事实上,用 AI 生成类似真实人声的声音其实挺难的,因为你需要某个人大量的声音样本,才能实现真实的合成效果。仅仅依靠一小段音频,比如你在社交媒体上发布的语音,想要实现高仿真是不太可能的。
不过在研究领域,确实有一些 AI 技术能利用相当短的样本合成一段相当不错的音频。此前微软就开发出一款相当高质量的文本转语音 AI 模型。
声音样本越独特,复制起来就越容易。所以假如你想克隆兔八哥这样著名卡通人物的声音相当容易,相比之下,复制一个普通人的声音就没那么简单了,因为普通的人声通常没有卡通人物那样极容易辨别的特征。
对于那些还在研发中的 AI 算法来说,几秒钟的样本做出的合成语音其实已经能让人信服,但这也取决于你想要说服谁了。假如有人自称是你的亲人或朋友,只要你有理由怀疑对方的身份,那 AI 生成的声音大概率就骗不了你。
当然,在一些场景中,你很难确认对方是谁。比如在电话里,AI 的合成技术能模拟出声音失真的效果,会让你感觉更真实。在两三年里,合成这种高仿真音频差不多可以成为每个人触手可及的事了。
声动活泼
那当我们不太确信来电的是真人还是 AI 语音时,有什么方法能够快速验证?
Adrian
如果你怀疑正在和你对话的是 AI 语音,那么你可以引导其说出一些特定的话,从而帮你判断真伪。
同样需要引起注意的是,如果没有足够的声音样本,AI 就无法准确捕捉说话者的个人特质。也就是说,一个人其实是有多种方式来表达同一个意思的。所以在几秒钟的语音片段里,要模仿一个人的声音、腔调、嗓音,甚至生理结构特征,某种程度上是比较容易的,但要准确还原一个人说话的习惯和方式,就需要大量样本了。 
另外,如果我们想渲染一句话,那渲染的时间通常是这句话时长的 10 至 100 倍,比如要渲染 2 秒钟的 AI 音频,至少需要 20 秒才能达到相对差强人意的效果,而要获得较高质量的音频,则需要 200 秒。所以目前实时交互的 AI 语音还是很难实现的。
不过,在不远的未来, AI 会做得更出色,会变得更擅长像人类一样自然地表达。
宾夕法尼亚大学沃顿商学院教授伊森·莫里克(Ethan Mollick)使用自己的照片(左),在人工智能平台上生成了自己的深度伪造视频(右)。| 图源:npr
声动活泼
在深度伪造技术快速发展的同时,也有不少公司竞相开发深度伪造的探测器。有一款被广泛应用的工具叫 GPT Zero,号称能够快速检测出文本是由 AI 生成还是人类生成的。据报道,哈佛大学、耶鲁大学和罗德岛大学的教师使用了这一工具,检测学生的作业到底是不是 AI 生成的。这些工具的准确率到底有多高呢?
Adrian
这就猫捉老鼠的游戏一样。每种工具都在不断发展,都希望最终能超越另一种工具。如果你的孩子在这样的学校,那我强烈建议你让他们赶快换一所。假如一所学校让你的孩子避免接触正在发展的 AI 技术,那简直就是「教育」他们如何在劳动力市场上彻底失败。每所学校,特别是大学都应该竭尽所能地让学生及时了解和掌握这些技术。
我觉得学校可以做的反而是提高论文写作标准,并且告诉学生充分利用ChatGPT 或任何能获得的 AI 工具去完成一篇能力范围内最出色的论文。
Leander
早先大部分的的测试是二元分类的,比如给你一篇文章,你来分辨它是机器生成的还人工的,但很快大家发现在实际生活中不是这样的模式,一篇文章出来,可能一半是人工,一半是机器。
后来也有新的基准测试集出来。比如提供一个 10 句话的样本,第一句是人工的,第二句到第十句之间,可能在某一个点上由机器生成,然后用算法句来鉴别在哪一个点上开始由机器生成。但到目前为止,数据集的表现还达不到可用的状态,有很多错误。因为在大多数情况下,两者真是太像了
声动活泼
如果我们指望不上 AI 内容探测工具,那大公司,特别是平台,是否有相关技术和政策去发现不良的 AI 内容?
Leander
你可以把平台和虚假信息制造者的关系,想象成是警察抓坏人。大家都在迭代,以前是造假者每天往前一步,平台往前一步,有了 AI,可能造假者一天就会走 100 步,对于平台来说,也需要一天走 100 步,才能抓住他们,这其实是永无止境的。
对平台来说,要定位虚假信息,传统的逻辑是,在平台内每天追踪虚假信息相关的一些指标,如果这个指标嗖嗖往上涨,就去找原因,发现是什么内容造成的;这一类内容会被人工标注,说明它违反了哪一类规则,如果是此前没有的规则,还涉及到制定新规则;之后人工标注的数据会再返给机器学习,机器才可以识别出虚假信息。这其实是要花时间的,特别是涉及到外部政策调整的时候。

虚假信息出现和被封锁之间总会有一个时间差。
声动活泼
上一次美国大选时,网上充斥着不少虚假信息。距离下一轮美国大选还有一年时间,现在平台会不会有一些措施?
Leander
社交平台现在通常都会设立一个「新闻团队」,专门负责新闻相关内容的收集、分发和标注,尽可能确保其质量。
同时,平台也鼓励更多可信赖的信息源,比如认证过的媒体,类似《华尔街日报》《纽约时报》或一些在当地比较有知名度的媒体,这些可信赖的信息源在平台内部的打分会更高。
另外,在过去的选举中,我们发现规模的假新闻都是有组织的,平台可以通过社交网络追溯这些信息。一般来说,这些 IP 或者账号之间会有一定联系,例如互相转发、点赞,或在某个时间具有相似的行为模式,通过追踪,我们可以对它们聚类,然后整体打击。
声动活泼
事实上,各大平台已经采取了一系列措施。例如,欧盟通过了人工智能法案;TikTok 要求创作者在使用 AI 时必须披露;Meta、微软、Google、OpenAI 和亚马逊等科技公司也自愿承诺,会标记 AI 生成的内容;Google 还宣布从 11 月开始,平台上所有政治广告中人工智能生成的内容都必须声明。尽管各平台已经实施了许多监管政策,但为什么不统一制定一个 AI 生成标准,或类似于水印的机制,使得 AI 生成的内容更容易被识别出来?
Leander
现在所有人的目的首先还是增长,要推广自己的 AI 产品。在这种攻城略地求增长的阶段,大家不太会坐下来谈一谈安全问题,搞一个协议。一般在「战争」结束,你的地盘我抢不动了,我的地盘你也抢不动了的时候,大家才会坐下来聊这个问题。
声动活泼
大平台寻求增长可以理解,那普通 AI 创业者的逻辑又是什么样的?
Adrian
硅谷的文化就是技术越优秀越好。你的产品可能会以某种负面的方式被使用,但只要也能展示出有价值或积极的一面,那么就应该继续发展下去,并努力寻找其他方式来抑制消极影响,而不是去回避这一技术。
在硅谷,我们非常重视创造力,对创造力和技术创新的热爱远远超过了其他顾虑。
以上内容整理自
声动活泼旗下播客「科技早知道」
点击探索更多
 AI 的黑暗面
监制/徐涛
编审/东君
声音支持/迪卡
视觉/Mori
排版、运营/六工
更多有趣问题
欢迎来声动活泼找答案
继续阅读
阅读原文