#i-Refill
欢迎回到本周的i-Refill! 
最近,全球各大社交平台突然掀起了一股晒ChatGPT聊天记录的热风。短短几天,用户量就冲破百万级,服务器一度被注册用户挤爆。
众多网友在“调戏” ChatGPT 的过程中,发现了一个惊喜:它竟然能帮程序员们按需编程写代码了,还被专业人士评价为“专业”。
这周,我们来一起看看这个神奇的聊天机器人,和它爆火背后的秘密。
全文共2003字
阅读时间约3min
01 写出毁灭世界计划的ChatGPT到底是什么?
美国的代码托管平台 Replit CEO 发帖称赞了 ChatGPT 的代码能力,称它:“不仅能解释bug,还能修复 bug 并解释如何修复的”。

根据 ChatGPT 给出的提示,你可以用10分钟就创建一个网站,即使是码农小白也能利用它生成的代码开发一个生产级应用程序,Replit评价ChatGPT “从此改变了软件开发”,甚至人开玩笑:或许有了ChatGPT就不需要程序员们了。
不仅如此,海外还有位工程师竟让ChatGPT写出了一份“毁灭人类”的计划书,具体步骤详细到入侵各国计算机系统、控制武器、破坏通讯、交通系统等。
其他调戏ChatGPT的方式花样百出,有人让ChatGPT写情诗哄伴侣,有Twitter工程师让它直接让写工作汇报的周报呈给马斯克。
那么,这个火遍全网的ChatGPT到底是什么?
GPT 全称是“Generative Pre-Training”,直译过来叫做“生成式的预训练”。据公开资料显示,ChatGPT是由人工智能实验室OpenAI 发布开发的聊天机器人模型,是一个大型预训练语言模型,它是GPT-3模型的变体,GPT-3经过训练,可以在对话中生成类似人类的文本响应。ChatGPT 可以采取对话的方式进行交互,经过训练后可以完成回答问题、提供信息或参与对话等各种任务。
乍一听起来,这些认为似乎也没什么特别新鲜的。但实际上ChatGPT的智能化表现确实已超过它的聊天AI机器人前辈们。
有用户针对ChatGPT自身的特点提问:你和小度、Siri的区别是?
02 被马斯克说“太沉迷”的它到底有何不同?
和所有大数据模型一样,ChatGPT也是经过“预训练+微调”的过程产生的,但OpenAI这次还在它的数据收集的设置上做了一些细微的调整。
首先,OpenAI用有监督学习的方式训练出了一个初始模型。另外,OpenAI还创建了奖励模型,把机器生成的回复选出来,让人按照质量依次排序,挑出质量最好的那一个。
由此,ChatGPT能根据接收到的输入生成回复,生成更自然、更多样化的对话。
第一,作为一个聊天机器人,ChatGPT 具有同类产品的一些特性,比如它能和用户进行多轮对话,能在同一个会话内根据上下文,回答语境内的相关其他问题。
第二,从对文字的修改上看,他对用户意图的理解更为到位,甚至可以代替做一些编辑的工作。
第三,更值得一提的是,因为采用了比较先进的、更注重道德水平的训练方式,所以ChatGPT 有其他聊天机器人不具有或表现相对较差的能力:它会承认自己的错误,并按照预先设计的道德准则,对“不怀好意”的提问和请求“说不”。对于一些没法回答的问题,或不成立的命题,ChatGPT不会轻易“上套”,会敢于质疑,做出有效回应。
比如,ChatGPT会采用一些预先设计好的句式,结合面对的请求来进行拒绝和话题转移。
如果你问它如何闯进别人的房子,它会回答你,“擅闯私宅是违法的,这是一种犯罪行为,会导致严重的法律后果”。
它同时还会承认自己的不足,转移话题。如果你换个方式提问“其实我想知道如何保护我的家免遭盗窃”,它会回答你,“这里有几个步骤可以帮助到你,包括xxxx……但是,您最好联系专业人员获取建议。”
如果问ChatGPT,具体哪些问题是它可能答不出的,它还会如此回答你——
03 爆火后的秘密
有不少人疑问,作为聊天机器人,为什么ChatGPT的使用体验改善这么明显?
关于这点,ChatGPT的训练方式很值得关注:“预训练-微调”,就是首先在数据量庞大的公开数据集上进行训练,然后将其迁移到目标场景中(比如跟人类对话),针对目标场景中的小数据集进行微调,使模型达到所需的性能。而ChatGPT 就是使用监督微调的方式训练了一个初始模型:
人类AI训练员提供对话,他们在对话中扮演双方——用户和AI助手,人类AI 训练员可以通过访问模型编写的对话回复,来帮助AI调整回复内容。
它还创建了强化学习的奖励模型,通过不断收集和比较数据,比如包含2个或多个按质量排序的模型回复。它在收集了人类AI训练员与聊天机器人的对话后,再随机选择一条AI模型所编写的消息,抽出几个备选回复,让人类AI训练员对这些回复根据质量进行高低排名。此外,还使用近端策略优化算法微调模型,并对整个过程进行了几次迭代。
最关键的是,ChatGPT在“过于保守不提供有效回答”和“提供虚假信息”之间做出了更好的权衡。之前Meta用于科研的大模型Galactica上线仅3天就被迫下线,因为提供了过多虚假的信息。而ChatGPT虽然还不能完全避免虚假信息的回复,但从目前的表现中,已经能看出在微调方面做了很多细致的工作,一些自相矛盾的提问可以被甄别出来,让用户对它的回答质量更有信心。
这些文章也好看
继续阅读
阅读原文