文章来源腾讯科技
作者
Kaysen 

编辑
晓静
2023年6月28日,第一起具有代表性的ChatGPT版权侵权之诉,终于出现在了公众视野。两名作家在美国加州北区法院,对Open AI公司发起了版权集体诉讼,指控后者未经授权利用自身享有版权的图书训练ChatGPT,谋取商业利益。
原告Paul Tremblay和Mona Awad居住于马萨诸塞州,分别享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版权;被告Open AI创建和运营了生成式人工智能产品ChatGPT,目前主要由GPT-3.5和GPT-4两个底层大语言模型驱动。
起诉状指出,虽然原告没有授权Open AI使用自身享有版权的图书进行模型训练,但ChatGPT却能够根据prompts指令输出图书的摘要,而这只有在被告将涉案图书纳入语料库加以训练才可能发生。

因为输出图书摘要而被“抓包”

原告表示,Open AI训练数据集中收录的大量内容属于版权保护的作品,这其中便包括原告享有版权的图书。但Open AI既没有经过原告的同意,也没有标明内容来源、支付必要的费用。而原告出版的图书具有明确的版权管理信息,包括出版号、版权号、版权人姓名以及使用条款等。
原告从既有的事实和信息可以推断,ChatGPT之所以可以准确生成特定图书的摘要,唯一可解释的原因便是Open AI获取、复制了涉案图书,并用于旗下大语言模型(GPT3.5 或GPT4)的训练。
原告测试发现,当通过prompts的方式要求ChatGPT总结两部涉案图书时,ChatGPT可以生成较为准确的摘要(虽然也存在少量的错误内容)。这表明ChatGPT保存了被训练数据集中特定作品的内容,并能够输出对应的文本。与此同时,ChatGPT通过对大语言模型内容生成原理的设计,输出内容并不会包含原有的版权管理信息。

“ChatGPT,你是如何运行的!”

本案有意思之处在于,原告证明Open AI侵权的过程中,对于ChatGPT基本原理的介绍,是建立在同ChatGPT对话,让其“进行自我介绍”的基础之上。具体内容总结如下。
Open AI至今已经公开了一系列的大语言模型,包括GPT-1(2018·6)、GPT-2(2019·2)、GPT-3(2020·5)、GPT-3.5(2022·3)以及最新的GPT-4(2023·3)。通常来讲,人工智能软件旨在借助统计学方法,通过算法模拟人类的逻辑和推理。大语言模型则是一类专门的人工智能软件,用来解析和输出自然语言。
一方面,Open AI以每个月20美元的价格将ChatGPT通过网络页面的方式提供给用户。使用者可以选择两个版本的ChatGPT,GPT-3.5模型或者更新后的GPT-4模型。另一方面,ChatGPT也以API的方式提供给软件开发者。API接口允许开发者撰写程序用于和ChatGPT进行数据交换,在此情况下则是按照使用量来计费。
不管是以页面还是API方式提供服务,ChatGPT都会积极响应用户的prompts请求。如果用户向ChatGPT提问,它会给出答案;如果用户向ChatGPT下指令,ChatGPT会执行;如果用户要求ChatGPT总结一本图书的摘要,ChatGPT依然会照做。

图书是大模型训练的核心语料

原告着重论证的观点是,不同于传统软件是由工程师撰写代码而成,大语言模型则是通过“训练”的方式研发——收集不同来源的海量内容语料并“投喂”给模型,这些语料被称为训练数据集(training dataset)。
大语言模型会不断调整自身的输出,尽可能的接近被训练作品中的文字组合顺序。值得关注的是,虽然很多内容都被用来训练大语言模型,但图书一直是训练数据集中核心的语料素材,因为其提供了高质量长篇写作的最佳范例。
在2018年6月发表的企业论文《通过生成式预训练提升语言理解力》中,Open AI披露GPT-1的训练依赖于“BookCorpus”的数据集。“BookCorpus”包含7000本涉及探险、奇幻、浪漫等不同领域的图书。Open AI指出,之所以图书作为训练语料尤为重要,是因为其包含了长篇幅的连续文本,这可以让生成式模型学习如何处理长文本信息的能力。
包括Open AI、谷歌、亚马逊等在内的众多人工智能研发企业,都利用“BookCorpus”进行模型训练。2015年,一个人工智能研究团队创建了该数据集,其包含的图书来源于Smashwords.com网站,但“BookCorpus”在收录这些图书时未获得版权人授权。

揭秘GPT背后的图书语料库

通过公开检索Open AI主动披露信息(企业论文)的方式,原告希望论证GPT系列模型的训练建立在,未经授权侵权利用海量图书内容的基础之上。在2020年7月发表的企业论文《语言模型是小样本学习者》中,Open AI披露GPT-3训练数据集中15%的内容,来源于两个名为“Books1”“Books2”的电子图书语料库。
虽然Open AI没有说明“Books1”和“Books2”内容的具体情况,但可以通过相关线索推断:第一,两个语料库均来自于网络;第二,两个语料库的规模均明显大于“BookCorpus”。根据Open AI的披露,“Books1”的规模是BookCorpus的9倍(约6.3万本书),Books2是42倍(约29.4万本书)。现实中,只有极少数的数据库能够提供如此规模的图书语料。
一方面,“Books1”大概率来源于“古登堡项目”或“古登堡语料库标准化项目”。“古登堡项目”(Project Gutenberg)是一个汇集“超过版权保护期限”的在线电子书库。2020年9月,古登堡项目宣布已经收录超过6万本书。因为不受版权保护,古登堡项目一直被广泛用作人工智能模型训练。2018年,一个人工智能研究团队在“古登堡项目”的基础上,创建了超过5万本图书的“古登堡语料库标准化项目”(Standardized Project Gutenberg Corpus)。
另一方面,“Books2”极大可能来源于网络上的“影子图书馆”。“Books2”数据集大约含有2.94万本书,只有饱受诟病的“影子图书馆”(shadow library),能够提供如此规模的图书语料。例如Library Genesis、Z-Library、Sci-Hub和Bibliotik等。“影子图书馆”一词由美国社会科学研究理事会,在2011年发表的《新兴经济体中的媒体盗版问题》文章中创造,指代侵权收录大量书籍并向公众免费开放的网站。
2023年3月,Open AI发布GPT-4企业论文,但表示“出于行业竞争形势和产品应用安全角度考量,不再对训练数据集的结构和内容进行相关披露。”

Open AI面临的六项侵权指控

原告针对Open AI一共发起了六项指控,前三项涉及版权侵权,第四项涉及不正当竞争,第五和第六项涉及两类基本民事责任——注意义务和不当得利。
第一、版权直接侵权。原告没有授权Open AI对其图书进行复制、制作演绎作品,也没有授权Open AI公开展示、分发上述复制品或演绎作品。
此外,原告强调,因为Open AI大语言模型需要从原告图书中提取和保存表达性信息才能够运行,所以在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。
第二、版权替代侵权。原告强调,在缺乏授权的情况下,大模型每次输出的内容都构成侵权演绎作品。因为有权利和能力控制大语言模型的内容输出,并从中获得了经济利益,所以Open AI构成版权替代侵权。
在美国判例法体系下,“替代侵权”和“帮助侵权”“教唆侵权”共同构成了版权间接侵权的完整体系。间接侵权与直接侵权相对,意指侵权人虽然没有直接从事版权专有权利规制的行为(即版权直接侵权),但却为版权直接侵权提供了一定的助成条件。
第三、违反DMCA中版权管理信息的规定。从产品设计机制来看,ChatGPT输出的内容不会保留作品的“版权管理信息”(CMI),所以被告故意移除原告作品版权管理信息的行为,违反《数字千年版权法》(DMCA)的规定。此外,在未获授权的情况下,被告分发了不含有版权管理信息的侵权演绎作品,也违反了DMCA。
“版权管理信息”是一种能够识别有关作品权利人、权利归属和使用条件的相关信息。不管是在美国是我国,删除或改变版权管理信息,或向公众提供被删除或改变版权管理信息的作品,都构成违法。
第四、不正当竞争。Open AI未经授权使用原告受版权保护的作品进行模型训练,这一行为违反了《加利福尼亚州商业和职业条例》,因为其具有不正当性、不道德性、强迫性并损害了消费者利益。
被告有意设计了ChatGPT,可以在不标明内容出处的情况下,输出原告作品的片段和摘要。ChatGPT通过隐瞒作者、复制被侵权作品内容和观点的方式,研发商业产品获取不公平的利益和名声。
第五、过失侵权即违反注意义务。Open AI需要承担《加州民法典》规定的注意义务——所有人对于他人应当采取一种合理的行为方式。这一义务建立在行业惯例、商业实践、被告掌握的信息以及基于信息所拥有的控制能力基础之上。
被告一旦为了训练GPT模型而收集原告享有版权的作品,那么便需要负有一定的注意义务:当预见到未经授权将作品进行模型训练会对原告造成损害时,便不应再侵权利用这些作品。
第六、不当得利。原告为创作涉案图书付出了实质性的时间和精力。因为自身作品被未经授权的用来训练GPT模型,原告被剥夺了从作品中原本可以获利的权利。通过使用原告作品训练GPT模型获得商业利益,占据这些利益对于被告而言是不公平的。除非加以禁止或限制,被告的行为将会给原告造成难以弥补的损害。
写在最后:本案待探讨的三个问题。
作为ChatGPT版权侵权的首例代表性诉讼,加州北区法院做出正式判决仍将经历一个漫长的过程。但在此之前,针对原告起诉状中的具体内容,仍然有一些问题值得关注和思考。
关注一:发现模型侵权不容易。
大语言模型的训练本质上是一种机器内部的、非外显性作品利用行为,版权人存在发现自身作品被侵权的现实难题。一般来说,只能通过比对模型生成内容和自身作品存在实质性相似,倒推出模型训练阶段存在未经授权的作品利用行为。本案中,原告之所以能够指控自身图书被Open AI旗下的大语言模型侵权训练,便是从发现ChatGPT输出了自身作品的摘要,倒推而来。
但这一主张是否成立仍有待探讨。若ChatGPT输出的作品摘要,仅是建立自身在收集网络上原告图书公开介绍资料的基础上,而非直接对原告图书进行复制和训练,那么该侵权指控的正当性便会受到动摇。原告也承认ChatGPT输出的自身图书摘要存在少部分事实错误,一定程度也表明大模型可能并未完整的学习涉案图书。
关注二:侵犯何种权利待论证。
目前来看,虽然“作品数据的储存行为”形式上可以落入版权法“复制权”的规制范畴,但核心的“作品数据的训练行为”,是否侵权以及侵犯何种版权法上的权利尚未有一致结论。本案,原告强调大语言模型的正常运行和内容输出,建立在对作品语料的训练基础之上,所以大模型训练便构成版权侵权,大模型本身也构成侵权演绎作品。
这一主张亦仍有待探讨。除了少数类似于本案“以prompts方式要求概括、总结、翻译特定版权作品”这类特殊内容生成需求之外,绝大多数情况下大模型接收开放式内容生成指令(不限定特定作品、特定作家风格),基本不会输出特定作品甚至说特定作品的片段,也就不构成版权法上的侵权。
关注三:上下游责任需明确。
在大模型版权领域,模型研发者对于大模型本身享有相关权利,所以承担模型训练涉及的版权责任;而对于大模型输出的内容,从目前行业实践来看,通行做法是通过合同方式,明确权利和责任均属于使用者。在2023年7月10日,网信办发布的《生成式人工智能服务管理暂行办法》也明确认可,“提供者应当与使用者签订服务协议,明确双方权利义务。”
值得关注,从原告诉讼请求看,亦遵循了模型训练和内容输出两个阶段,权利责任二分的思路。原告对于版权直接侵权的主张,聚焦于Open AI模型训练阶段:一是,未经原告授权在模型训练过程中制作了图书的复制品;二是在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。原告对于ChatGPT输出内容侵权的指控,仅是主张Open AI构成版权间接侵权(替代侵权)。这也意味着对于大模型输出的内容,是由使用者承担版权直接侵权责任,因为其享有对应的权利。
一场聚集人工智能产业头部公司与顶级资本的对话
扫描下方图片即可报名参加活动
品玩招聘作者,资深作者及编辑,并长期开放实习生招聘。

世界不平静,我们希望在变动的技术周期和商业周期里继续我们的探索,不熄灭眼里的光。
为了和更多个优秀的你一起记录和改变这个激动人心的时代,做更多有价值的报道,品玩现开放招聘。
岗位信息:全职:4人。实习生长期招聘。工作地点:北京。
一句话总结我们在招聘的岗位的工作内容,就是:
报道最重要的商业和技术新闻,并抽丝剥茧地解释给读者它们为什么重要。
一些共同的岗位要求:
1. 尊重常识。
2.对好内容有感知,有选题发明能力。
3.掌握快速搜索梳理信息的方法,有较强的文献阅读能力,能独立拓展相关资源。
4 英文流利。有阅读英文内容的习惯,可以用英文完成沟通。
5.对真实世界有感知,心智成熟,有职业精神,沟通界面良好稳定。
在招岗位:
-新经济作者、新技术作者
新经济作者负责报道互联网商业领域最新动态;新技术作者负责报道新技术领域(AI,芯片,机器人等)最新动态;
追踪钱的流动,人的变化,商业世界的竞争与合作以及科技的变革,并把它们讲述给我们的读者;
不限工作经验,不限专业背景,我们欢迎不同背景的候选人。
-资深作者/编辑
对互联网商业领域或新技术领域有自己的研究和积累;
有自己获取信息的方法体系,有持续学习的能力;
能发明选题,撰写深度文章,同时也可以辅导初级作者。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
或者,以上的描述都不能定义你,但你认为你是我们需要的那个人,也可以发邮件给我们,介绍你自己。
以上岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
同时,我们也在招聘其他岗位:
运营部门
岗位信息:全职:3人。实习生长期招聘。工作地点:北京。
内容运营
能够敏锐的捕捉互联网热点,并将其转化为出色的内容;
富有创新意识和强烈的主观能动性,重视流量在工作中的重要性;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
视频运营
具备视频的全流程的创作能力;
对各个内容平台均有深刻理解,能抓住平台规则红利;
有自己独特的数据分析方法论,能发现庞杂数据中的关键点,并反哺内容创作。
社区运营
有过国内外成熟知名社区的运营经验;
能够独立承担运营策略、节奏设计,结合运营目标、节点资源等因素制定精细化的社区运营规划;
对UGC的热点、流行趋势、话语体系有充分理解,能够通过创意、热点玩法、活动策划激发UGC参与。
长期招募实习生
我们为实习生提供与全职同样的指导与工作支持,并提供留用机会。
运营岗位应聘者,请将简历及作品发送至:[email protected] 。(请标明应聘岗位)
商务部门
销售总监/高级销售经理
岗位职责:
1. 负责品玩线上广告、线下活动类、品牌营销、市场公关、以及定制方案的商务拓展与销售工作,通过对目标行业客户的销售完成指定收入目标;
2. 对目标行业客户进行研究、识别、接洽、需求、分析、产品演示、方案规划、谈判与签约;
3. 管理与维护指定客户(包括新客户与现有客户),提供优秀的售前与售后服务,建立长期、稳定的合作关系,对客户产品和需求进行持续性的研究与开发;
4. 与各部门保持紧密合作,回馈客户需求与最新行业动向,协助优化产品与服务;
5. 积极参加行业商务与社交活动,拓展人脉资源,持续了解与提升行业知识和洞察力
任职要求:
1. 互联网销售经验2年以上,销售经验5年以上优先;
2. 做事严谨、细心,较强的沟通协调能力;
3. 有市场营销、品牌方或者市场公关乙方工作经历优先;
4. 自我驱动,有很强的学习行业知识及专业知识的能力;
5. 具备应变能力,团队协作能力,能适应多任务处理及工作压力;
6. 拥有intel、华为、华为云、阿里、阿里云、高通等互联网行业直客资源者优先。
更多招聘信息,可以进入官网招聘页面获取。
期待品玩有你的加入。

继续阅读
阅读原文