AI诈骗电话克隆声音，这个CEO被骗173万

新智元报道

编辑：张佳

【新智元导读】被AI骗走100多万是一种怎样的体验？据报道，犯罪分子利用AI模拟老板打电话，要求一家英国公司转账22万欧元，结果这家公司就上当了。万万没想到，现在AI不仅能换脸，换声也不在话下。

AI换脸余波未退，AI换声进行电话诈骗的戏码竟然成真了！

据《华尔街日报》报道，今年3月，有诈骗犯利用AI仿造了英国某能源公司母公司CEO的声音，成功诱骗公司高管通过匈牙利供应商向其转账22万欧元（约173万元人民币）。

网络专家称，这是黑客用人工智能犯罪非比寻常的案例。

利用AI伪装老板声音，连口音都能装，1个电话骗走173万

事情是这样的，英国某能源公司的CEO接到一个电话，他以为自己在和德国母公司CEO通话，对方要求他把钱转给匈牙利供应商，并表示此事非常紧急，要在一个小时内付款。

执法当局和AI专家预测，犯罪分子使用了人工智能来实现自动化网络攻击。无论这一事件背后黑手是谁，似乎已经使用基于人工智能的软件通过电话成功模仿德国高管的声音。总部位于慕尼黑的金融服务公司Allianz SE的子公司Euler Hermes的欺诈专家Rüdiger Kirsch表示，英国CEO听到了他老板轻微的德国口音以及他在电话中的腔调。

一些官员表示，欧洲的语音欺骗攻击是他们听到的第一个网络犯罪，其中犯罪分子明显依赖人工智能。根据Kirsch的说法，Euler Hermes承担了受害公司索赔的全部金额，之前并没有处理过其他要求追回涉及人工智能犯罪的损失的索赔。

Kirsch表示，使用AI的诈骗对公司来说是一个新的挑战，以往的安全工具无法检测到。因此，网络安全公司最近开发了用于检测所谓deepfake录音的产品。

欧洲刑警组织欧洲网络犯罪中心战略负责人Philipp Amann说：目前尚不清楚这是否是首次使用人工智能的攻击，或者当局没有检测到使用了这一技术。虽然很难预测使用AI的网络攻击是否会很快出现上升，但Amann先生表示，如果黑客利用AI攻击更成功或更有利可图，他们更有可能使用该技术。

Kirsch说，欺骗英国能源公司的黑客打了三次电话。22万欧元转移后，黑客打电话说母公司转移资金偿还英国公司的费用。然后他们在当天晚些时候进行了第三次电话会议，再次冒充首席执行官，并要求第二次付款。由于转账偿还资金还没有收到，而第三次电话是来自奥地利的电话号码，行政部门开始怀疑，没有支付第二笔款项。

转入匈牙利银行账户的资金随后转移到墨西哥并分发到其他地方。基尔希先生说，调查人员没有发现任何嫌犯。

目前还不清楚攻击者是否使用机器人对受害者的问题作出反应。Amann说，如果他们这样做，执法当局调查可能会更加困难。

Kirsch认为，黑客使用商业语音生成软件来进行攻击。Kirsch用一种这样的产品录制了自己的声音，并说克隆的版本听起来很真实。

网络安全公司Endgame的数据科学主管Bobby Filar表示，一些软件公司提供的服务可以迅速克隆声音。“你不需要成为数学博士就能使用它。”Filar说。

黑客可以使用的另一种策略是将音频样本拼接在一起以模仿一个人的声音，这可能需要数小时的录音。安全研究人员去年在Black Hat大会上展示了这项技术。

攻击者可以使用公开的录音来冒充名人或高管。

Filar说：“你不可能四处走动却一直保持沉默。每个人都可能遇到这样的情况，你会暴露出你从未想过可以用来对付你的信息。”

联合国区域间犯罪与司法研究所人工智能与机器人中心负责人Irakli Beridze说：将机器学习技术应用于欺骗性声音使网络犯罪变得更加容易。

联合国中心正在研究检测虚假视频的技术，Beridze先生称这对于黑客来说可能是一个更有用的工具。就英国能源公司而言，一个不熟悉的电话号码终于引起了怀疑。“想象一下，以CEO的声音进行视频通话，这是您熟悉的面部表情。那么你根本不会有任何疑虑，“他说。

AI换声只需5秒样本，谷歌项目开源

其实，利用AI克隆一个人的声音也不是什么新鲜事，百度去年就推出了一种新的神经语音克隆系统，只从少数音频样本中就能合成一个人的声音。

谷歌旗下的加拿大公司Lyrebird，只需一分钟音频即可生成与用户语音特征高度相似的数字语音。

谷歌也发表过一篇题为“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis” (SV2TTS) 的论文，描述了一种用于文本到语音（TTS）合成的基于神经网络的系统，该系统能够以许多不同发言者的声音产生语音音频。

SV2TTS是一个三阶段的深度学习框架，可以从几秒钟的音频中创建语音的数字表示，并使用它来调节文本到语音的模型，该模型经过训练可归纳为新的语音。也就是说，只需5秒钟的音频样本，就可以克隆一个人的声音。

视频演示

该系统由三个经过独立训练的组件组成：

speaker encoder网络
基于Tacotron 2的序列到序列合成网络，其以语音嵌入为条件，从文本生成mel频谱；
一个自动回归的基于WaveNet的声码器，它将mel频谱图转换为一系列时域波形样本。

Speaker Encoder是谷歌之前提出的说话人鉴别网络，该深度网络单独预训练，训练语料使用大量的说话人音频，不需要对应文本，且音频可以充满噪音，该部分网络输出固定大小的speaker embedding，说话人向量就编码了说话人的声音特征。

这项研究证明了所提出的模型能够将由经过判别训练的说话者编码器学习的说话者可变性的知识传递给多语言TTS任务，并且在看不到说话者的情况下能够从训练期间合成自然语音。

最后，我们证明随机抽样的speaker embedding可以用来合成新说话人语音中的语音，这表明该模型获得了高质量的说话人表示。

论文地址：https://papers.nips.cc/paper/7700-transfer-learning-from-speaker-verification-to-multispeaker-text-to-speech-synthesis.pdf

音频样本：https://google.github.io/tacotron/publications/speaker_adaptation/

开源地址（非官方）：https://github.com/CorentinJ/Real-Time-Voice-Cloning

在AI可以换脸、换声的今天，我们在发展AI的时候也需要警惕，增强自己的安全意识。可以预见，未来利用AI进行网络犯罪的数量将大幅增长，如何应对是值得我们深思的问题。

参考链接：

https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402?mod=hp_lead_pos10&ns=prod/accounts-wsj

继续阅读

阅读原文