工人必被AI淘汰？19世纪的织布工是怎样在工业革命中活下来的？

乌鸦校尉作品

首发于微信号乌鸦校尉

微信ID：CaptainWuya

大家好，我是乌鸦。

本月初，全球首届人工智能（AI）安全峰会于英国伦敦举办。

可这次大会，在举办前就政治风波不断。美国为阻止中国参会，向东道主英国方面施加了巨大压力，说中国参会会涉及安全问题。英国前“最短命首相”特拉斯也跳出来反对邀请中国。英国现任苏纳克政府则是一会传出消息考虑不邀请中国，一会说是只允许中国参与一天的议程，一会又说预计中国会参加全部两天会议，可谓摇摆不定。

不过，为中国说话的声音也不小。加拿大创新科学和工业部长商鹏飞表示，人工智能不应受国界限制。美国企业界代表马斯克更直言，中国不参加，峰会就毫无意义。英国首相苏纳克在压力下最终邀请中国参与全部议程。中方派出科技部副部长吴朝晖带队，中国科学院、阿里巴巴及腾讯也有代表出席。

这次峰会的主要成果，就是成功地将中美欧代表“聚集在同一张桌子上”，包括中国、美国、英国在内的28个国家及欧盟共同签署了《布莱奇利宣言》，承诺以安全、以人为本、值得信赖和负责任的方式设计、开发、部署和使用AI。

当然，不管是从会前的政治操弄，还是中方与会专家提出的“希望明年有数十场会议，有更多国家受邀参加，建立真正包容性的国际合作”的呼吁，都不难看出，这一届大会所取得的成果，都只能算一小步。不如反过来说，这届峰会的举办，倒确实体现了如今人类对AI技术的安全性问题格外关注。

技术带来效率和便利的同时，对人类社会来说往往也会形成种种担忧。有关人工智能的“安全性”，乌鸦特别邀请到了中国科学院软件研究所张立波副研究员（@图灵宇宙），就其中一些最受关注的问题，为大家讲解。

问题1：AI技术的安全隐患主要是什么？我们的隐私会不会进一步被利用？

图灵宇宙：首先我们明确一点，大部分AI技术是通过训练出的模型来执行具体下游任务。所以在这个基础上，关于AI的隐患，我们可以从模型训练前，训练时，和训练后三个方面谈一谈。

模型训练前，就目前主流的方法来说，都需要准备海量数据，因此这些数据的安全性和正确性是AI技术面临的首要问题。这个问题展开涉及到方方面面，例如这些数据从哪里来，是否可靠，是否涉及个人隐私问题，是否具有偏见性等等。我们举个简单的例子，如果训练一个对话系统，你用的数据里总是描述“太阳是绿色的”，模型里就会把这个当成一个事实。训练模型就像培养一个孩子，你教给他什么，他就倾向于如何理解，所以如果传递的训练数据中混入了错误和偏见信息，对于模型来说就非常危险。那现在的训练数据安全吗？我们来看一下目前大模型主流的训练数据是什么，90%以上的数据来自于英文文献或翻译，只有不到10%的部分是中文语料，那这其中可想而知极有可能存在一些错误和偏见数据，在这样的数据训练基础上得到的对话系统，会有一些错误甚至偏激的答案。当然，如何解决数据和输出结果可靠性也是目前大模型面临的热门研究方向，例如交叉验证、规则过滤和人工核验等等，都能起到一定的作用。

模型训练过程中，通过各种攻击技术能够让模型功能产生偏差，甚至产生相反的效果。这里可以举个例子，想象一下，无人驾驶车辆载着你在山间小路，遇到一个指示牌，本来显示的是前方悬崖，但现在的技术只要在上面贴一个指甲盖大小的广告，就能让模型的识别结果变为能够通行。另一方面，无论训练数据和场景多么完善，模型总是在有限的数据下进行训练，世间万物千变万化，这意味总会有超出训练数据的情况出现，模型遇到从未见过的题目也会懵。

模型训练完成后，会在具体的应用中产生作用。AI技术和训练完的模型本无好坏，但可能会被不法之人用在不法之处，在我们身边就已经能够遇到，偶尔你可能接到虚拟声音的电话，注意这就有可能是AI诈骗，犯罪分子通过虚拟声音和智能语音问答来实施违法行为。

从上面的分析中我们看出数据在整个流程中至关重要，也有读者提出了个人隐私的安全性问题。实际上，是有途径来解决隐私保护问题的，这里我可以简单介绍几种常见的方法，首先可以构建虚拟数据集，这样训练使用的数据符合现实使用的分布，但又没有触碰个人隐私，一举两得；其次，可以对隐私数据进行局部保护，比如你的任务是行人检测，那就可以对视频或图片中的人脸进行马赛克，这里可能会有人问，如果任务是人脸识别呢，别着急，现在的生成技术完全可以生成需要的虚拟人脸。最后，有一些企业，例如银行、证券等核心金融机构的数据要求更加严格，可能连触碰这些数据都不行，这时候怎么办呢。其实，在学术上早就有了解决方法，可以使用联邦学习技术，这种模型训练方法，可以在不直接接触训练数据的基础上，只通过反馈来完成所需模型的训练，也就是说对模型来说，训练数据是一个黑盒子。

问题2：AI技术对人类就业有何影响？非计算机领域的普通人如何应对AI浪潮的冲击？

图灵宇宙：我记得在很久之前，就有过AI技术对从业者冲击的讨论，甚至有一些媒体会忧心忡忡地列出了未来最容易被取代和最不容易被取代的职业，在最易替代上几乎没有悬念，代驾、收银员、流水线工人等位列其中。在最不容易被替代的职业榜单上，排在第一位的是程序员。

但这次我想换个角度来回答这个问题，因为我觉得每一次产业技术升级都面临原本由人工完成的工作可以让机器来完成。那些被机器替代的人，都去哪儿了呢？

我讲个故事吧，讲完这个故事，大家或许就都明白了。

1768年，卡特赖特发明水力织布机，将织布效率提高了40倍，1804年雅卡尔提花机的出现将织布效率提高了25倍。这些下岗的工人，去哪了呢？以英格兰西北部的兰开夏为例，从1820年到1851年，织布工人数量从20万锐减到5万。为了保住工作，他们其中有人甚至还发生过暴动，砸坏了数百台织布机。你要知道在1812年的英国，毁坏纺织机械是死罪。

雅卡尔提花机

在那个年代，换个工作很难吗？很遗憾，事实确实如此。在当时的英国，姓氏几乎是由他们的职业决定的，例如史密斯（铁匠）、米勒（磨坊）、库珀（桶匠），如果你表示怀疑，可以在英文字典里搜索Cooper，看到桶匠的释义。这些行业是沿着家族流传下来，往往需要多年的学徒生涯，每天工作时间很长，几乎没有业余时间。他们所做的，也是他们的父亲，父亲的父亲所做的，工作不仅是养家糊口的途径，也成为了自己身份的象征。

所以历史其实是相似的，现在的我们实际也在面临同样的问题。人工智能技术的飞速发展，使得原本由人工完成的工作可以让机器来完成。非计算机从业者在面临这些问题，计算机从业者其实也是一样。DeepMind团队在历经AlphaGo打败围棋世界冠军李世石和AlphaFold完成预测蛋白质结构之后，推出了智能编程系统AlphaCode。它默默地参加了著名网站Codeforces举行的10场编程比赛，成绩超过一半人类，在未来取代程序员或许只是时间问题。技术在以超乎人类判断的速度进步，回看历史，各个领域都在不断经历技术的变革，例如3G、4G已经被5G取代成为过去，云计算和大数据被更加火热的虚拟现实、量子计算等新名词夺去风头。

在这种形势下我们该如何应对？让我们先回到19世纪英国织布工人的时代，在我原本的想象中，这15万人可能流离失所，但是我惊奇地发现，他们中的大部分人，在别无选择下重新学习了新的技能，适应了新的工作，从1920年到1950年，大部分人选择从织布工人转为了纺纱工人，从事纺纱的工人数量从8.5万增加到27.5万。大部分下岗的织布工人重新找到工作，活了下来。

当下的技术会不断变化，现在高效的或许也在不久的将来被淘汰，纺织行业如此，计算机行业也是如此，各行各业的工作者都会面对同样的问题。总结下来，打开未来的钥匙或许只有跟上时代的步伐，不断学习，终身学习。

问题3：以后AI不断深入生活，人们会不会对AI产生依赖？

图灵宇宙：实际上这种情况已经正在发生，可以说AI现在我们生活中几乎无处不在，但很多时候你可能毫无察觉。你上个月买了一盒牙膏，AI可以精准地判断你快用完了，适时地在购物车里给你推荐新的牙膏；夜晚你躺在床上，想着刷一个视频就睡觉，结果一直刷到了天亮，你以为是自己的意志力比较薄弱，但实际上是人工智能准确计算了你的爱好和偏向，精准持续地给你推荐你喜欢看的内容，让你欲罢不能。

所以人们对AI的依赖是确定的，对于技术来说没有好坏，只是看使用的人如何来使用这项技术，刚才提到的例子会让人觉得AI会使人沦陷，但实际上还有很多正面的例子，例如医生通过AI诊断能够更准确地判断病人的病情，甚至有一些失明的孩子能够通过视觉传感技术重新看见这个世界。

在学习上，每个老师很难照顾到所有的学生，但AI可以通过每个学生对知识点掌握的情况，因材施教地给每个学生制定个性化的学习方案。在工作上，AI已经可以帮助我们生成一些基础的文档和图片，甚至还能制作和美化PPT。

如果从让工作生活更加美好便捷的角度出发来看，AI带来的依赖是正向的，或者说我们需要正向地去使用AI技术，说到底AI只是一种工具，类似于我们的锅碗瓢盆，做出什么样的菜，实际上取决于使用厨具的厨师。

问题4：传统的机器学习方法会被深度学习打败吗？传统的机器学习还有发展的空间吗？

图灵宇宙：目前来看传统机器学习不会被深度学习打败，事实上在很多深度学习模型应用中都会使用与机器学习混合的方法，包括最近很火的ChatGPT，仅靠深度学习模型的输出，面对未知情况时，模型的输出不可控，在这个时候传统机器学习方法能够用规则将输出约束在可控范围内。另外，深度学习技术依赖海量数据的训练，但并不是所有的问题都有海量数据，甚至有一些问题没有任何可以参考的数据，在这些案例上，传统机器学习就具有了不可取代的优势，因为传统机器学习可以依靠人类设定规则和手工特征来起到作用。

传统机器学习和深度学习都在发展，深度学习最初也是从机器学习里发展出来的，一个方向的发展，有很多因素影响，其实深度学习的出现可以追溯到20世纪50年代，当时也没有掀起太大的风浪，直到反向传播算法的出现，再加上算力的提升，才得以发展到当今这个程度。