ChatGPT类产品抓取并使用网络公开内容的法律定性

发布日期：2023年04月24日作者：糜志彬

3月23日，华尔街日报报道称，旗下拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等媒体的美国新闻集团准备向OpenAI、微软和谷歌等公司提起诉讼，要求后者就使用其享有合法版权的内容训练ChatGPT、Bard等AI工具支付赔偿费用。这并不是ChatGPT类产品因抓取内容作为深度学习素材引发的第一起纠纷，早在今年二月份，全球知名的图库商Getty Images在美国启动了针对Stability AI的诉讼，指控后者复制了超过1200万张图片用于训练其文本生成图片产品Stable Diffusion；被称为“编程神器”的人工智能软件Github Copilot也面临着同样的问题，程序员兼律师马修·巴特里克 (Matthew Butterick)启动了针对这款产品的集体诉讼，索赔金额高达90亿美元。毋庸讳言，ChatGPT类产品的研发和运营都离不开海量互联网内容作为支持，而这些内容，目前绝大部分都是通过网络爬虫直接从内容网站、社交平台、网络社区等直接抓取而来。ChatGPT类产品主动抓取网络公开内容并利用该等内容进行深度学习的行为（以下简称“ChatGPT类产品行为”），是否侵害了相关权利人的合法权益？具体侵害了何种权益？基于国内司法实践，ChatGPT类产品行为主要由著作权法和反不正当竞争法调整，本文将从这两个方面就前述问题展开论述。

一、ChatGPT类产品行为是否侵害他人著作权

这个问题适用的场景限于网络公开内容自身构成著作权法所保护的作品/制品这一情形，如文首提及的美国新闻集团基于其享有著作权的新闻类文章指控Open AI 侵权，又如Getty Images基于其享有著作权的图片对Stability AI提起诉讼。鉴于ChatGPT产品使用作品/制品的目的和方式明显有别于传统意义上的作品/制品传播和演绎，在讨论ChatGPT类产品行为是否构成著作权侵权时，合理使用自然会成为焦点，这也是这类著作权侵权诉讼中被告最常用的抗辩点。

1、合理使用的判断标准

《著作权法》第二十四条关于合理使用的规定，采用了半开放式的立法方式，除了明确列明的十二种已被认定为合理使用的情形外，还可以通过法律和行政法规形式进一步增补。根据《保护文学艺术作品伯尔尼公约》第九条二款“Possible exceptions”、《著作权法》第二十四条和《著作权法实施条例》第二十一条的规定，当前学界和司法界的通说认为，合理使用应同时满足如下三个条件，即有限例外情形、不得影响该作品的正常使用、不得不合理地损害著作权人的合法利益，又称“三步检验法”。

司法实践中已有多个案例适用前述三步检验法认定合理使用。丛文辉诉北京搜狗信息服务有限公司著作权侵权纠纷[i]就是一例。该案中，原告系涉案文字作品《可耻的幸灾乐祸》的作者，涉案文字作品字数约为一千字，原载于天涯社区。在天涯社区删除涉案作品五个月后，原告通过被告经营的搜索引擎网站（www.sogou.com）仍能搜索到涉案作品，原告认为被告的行为侵害了其信息网络传播权。被告抗辩称其提供的系网页快照，属于搜索链接行为；同时，原告在起诉前并未向其发送通知要求删除、屏蔽网页快照，其不存在侵权的主观过错，故不应承担侵权责任。海淀法院一审认为：搜狗公司实施的网页快照提供行为属于系统缓存行为，不符合《信息网络传播权保护条例》第二十一条所规定的临时缓存，故其构成对涉案作品著作权的侵犯。二审法院则认为，如果某一行为虽属于著作权所控制的行为，但其不会对著作权人的利益造成“不合理”的损害，且同时有利于社会公众利益，则该行为符合合理使用行为的“实质条件”。具体到涉案场景，二审法院认为对著作权人造成“不合理”的损害行为是指实质性替代，单从网络用户、搜索引擎服务商、著作权人和社会公众四个角度看，网页快照都不会实质性替代涉案作品，进而也不会影响涉案作品的正常使用，也不会不合理地损害权利人的利益[ii]。最终二审法院认定涉案行为属于合理使用，不构成侵权。无独有偶，上海知识产权法院在其审理的“80后的独立宣言电影海报侵权案[iii]”中，提出“转换性使用”这一标准，认定电影海报中使用上海美术电影制片厂享有版权的“黑猫警长”“葫芦娃”形象属于合理使用。

北京市高级人民法院于2018年发布的《侵害著作权案件审理指南》中明确规定了“适当引用”和“网页快照”两种合理使用的具体判断标准，其中“适当引用”的考量因素包括：（1）被引用的作品是否已经发表；（2）引用目的是否为介绍、评论作品或者说明问题；（3）被引用的内容在被诉侵权作品中所占的比例是否适当；（4）引用行为是否影响被引用作品的正常使用或者损害其权利人的合法利益；“网页快照”的考量因素包括：（1）提供网页快照的主要用途；（2）原告是否能够通过通知删除等方法，最大限度地缩小损害范围；（3）原告是否已明确通知被告删除网页快照；（4）被告是否在知道涉嫌侵权的情况下，仍未及时采取任何措施；（5）被告是否从网页快照提供行为中直接获取利益；（6）其他相关因素。上述规定中都充分体现了“三步检验法”所涉标准。

2、ChatGPT类产品行为是否构成合理使用

ChatGPT类产品行为可以拆分为复制行为和学习行为两段，其中复制行为指的是通过网络爬虫抓取相关可版权内容并存储于服务器，学习行为指的是利用抓取和存储的可版权内容训练语言模型和提炼知识点。复制行为在先，是手段；学习行为在后，是目的，二者共同构成一个完整的行为。从著作权控制的行为看，复制行为落入复制权控制的范畴；学习行为不受任何著作权权项的控制。

尽管学习行为未落入著作权控制范畴，但我们在判断作为复制行为是否构成合理使用时，仍需予以考虑，原因在于：（1）二者本就是一个完整行为的前后两段，为手段和目的的关系，将其完全割裂开来独立进行评价有违客观事实；（2）目的是评价复制行为是否构成转换性使用、是否影响作品正常使用的核心要件之一；（3）复制权又被称为母权利，是众多著作权权项的基础，如发行权、信息网络传播权、广播权等，都必须以通过复制行为制作复制件为前提，后续的使用行为的定性会直接决定前端的复制行为，因此应该将前端的复制行为和后续的使用行为一同评估。北京市高级人民法院在谷歌数字图书馆案[iv]中也清楚地指出了这一点，“专门为了合理使用行为而进行的复制，应当与后续使用行为结合起来作为一个整体看待，不应当与后续的合理使用行为割裂开来看。换言之，如果是专门为了后续的合理使用行为而未经许可复制他人作品，应当认定为合理使用行为的一个部分，同样构成合理使用”。

笔者认为，按照“三步检验法”，复制行为满足合理使用的构成要件：复制行为的目的是为了训练大语言模型，分析、总结人类语言组织规律以及内容所蕴含的知识点，并不是从艺术角度欣赏作品，显然属于作品的转换性使用，不会影响作品的正常使用，因此亦不会损害著作权人的合法利益。

需要注意的是，在与ChatGPT类产品行为具有高度类似性的谷歌数字图书馆[v]案中，国内法院和美国法院给出了完全不同的认定。国内案件[vi]中，一审法院和二审法院均认定作为手段的复制行为构成侵权，不构成合理使用；国外案件，即美国作家协会诉谷歌案[vii]，美国联邦第二巡回上诉法院根据1976年《版权条例》第107条的规定，就认定合理使用所需要考虑的四个层面，即the purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes，the nature of the copyrighted work，the amount and substantiality of the portion used in relation to the copyrighted work as a whole，and the effect of the use upon the potential market for or value of the copyrighted work, 分别展开论述，最终认定涉案行为（“Search Function”和“Snippet View”）完全符合转换性目的要求，构成合理使用。ChatGPT类产品行为是否构成合理使用，最终结论还需司法机关在具体案件中给出。

二、ChatGPT类产品行为是否构成不正当竞争

这个问题适用于全部网络公开内容，即包括可版权部分，也包括不可版权部分，例如社交平台上用户的各种公开信息。与著作权法保护路径下无法回避合理使用一样，通过不正当竞争法评价ChatGPT类产品行为面临着爬虫协议这样一个无法回避的问题。

1、ChatGPT类产品行为是否符合爬虫协议

所谓爬虫协议，指的是在搜索引擎场景下，被抓取网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。2012年，在中国互联网协会的组织下，百度、360、搜狗等12家公司联合签署了《互联网搜索引擎服务自律公约》（以下简称“公约”），《公约》第七条约定，遵循国际通行的行业惯例与商业规则，遵守机器人协议(robots协议)；第八条约定，互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则，限制搜索引擎抓取应有行业公认合理的正当理由，不利用机器人协议进行不正当竞争行为，积极营造鼓励创新、公平公正的良性竞争环境。爬虫协议是国内外搜索引擎行业普遍接受的行业惯例。

那么ChatGPT类产品行为是否适用爬虫协议哪？答案是否定的。无论是基于搜索引擎和ChatGPT类产品完全不同的定位，还是基于国内的司法实践，皆是如此。

首先，二者的定位完全不同，这决定了ChatGPT类产品无法适用主要体现搜索引擎行业商业道德的爬虫协议。搜索引擎提供的是信息定位服务，抓取内容的目的是为了更准确地定位信息位置，方便用户从海量内容中迅速定位信息并提供访问路径，客观上会为被抓取网站导流，增加被抓取网站的访问量，最终实现利益共赢，这一点决定了被抓取网站通常不会反对搜索引擎抓取内容；ChatGPT类产品抓取内容的目的是为大模型提供训练和学习素材，改善其服务质量，这不但不会给被抓取网站带来任何益处，反而会替代被抓取网站，损害被抓取网站的利益。换言之，在ChatGPT类产品的商业场景中，其和被抓取网站属于竞争关系而非利益共赢。这也是目前ChatGPT类产品在行业内招致众多反对声音的症结所在。

其次，国内司法实践对于非搜索引擎产品是否适用爬虫协议整体上持否定态度。今日头条诉微博不正当竞争案[viii]就是一例。该案中，头条认为微博出于恶意限制竞争的不正当目的，将头条的爬虫机器人“ToutiaoSpider”放入微博的robots.txt文件，阻止其抓取网站内容，且仅针对头条爬虫机器人进行上述限制，构成不正当竞争，要求微博赔偿其经济损失1亿元及制止侵权的合理支出50万元。北京市高级人民法院在该案的二审判决书中指出，《互联网搜索引擎服务自律公约》仅可作为搜索引擎服务行业的商业道德，而不能成为互联网行业通行的商业道德，微博限制头条爬虫机器人的场景并不属于搜索引擎范畴，因此不能使用前述自律公约进行商业道德的分析和判断。在此基础上，北京高院进一步分析到，在不损害消费者利益、不损害公共利益、不损害竞争秩序的情况下，应当允许网站经营者通过robots协议对其他网络机器人的抓取进行限制，这是网站经营者经营自主权的一种体现。

就爬虫行为的正当性，与国内司法机关的观点不同，美国法院近几年的司法判例则持认同观点，其中尤以HiQ Labs Inc v. LinkedIn Corporation案为代表。该案中，原告HiQ是一家为雇主提供雇员评估服务的数据分析公司，它使用自动化机器人，从被告拥有超过5亿用户的职业社交网站LinkedIn上抓取用户公开的个人资料，包括姓名，职务，工作经历和技能等，并将基于这些数据的分析结果出售给客户。LinkedIn向HiQ发送终止函，要求后者停止抓取行为,并称其将主动采取措施阻止HiQ的访问。HiQ收到终止函后，主动向加利福尼亚州地方法院提起诉讼，并在预先禁令中请求法院认定其行为不违反《计算机欺诈和滥用法案》（“Computer Fraud and Abuse Act”，缩写为“CFAA”）的规定，勒令LinkedIn不得采取措施阻止或者妨碍其访问、复制和使用LinkedIn上的公开信息。该预先禁令获得了地区法院支持。LinkedIn随后提起上诉，但美国第九巡回上诉法院维持了一审禁令裁定。LinkedIn进一步上诉至联邦最高法院，最高法院裁决将案件发回第九巡回上诉法院重审。而第九巡回上诉法院再度作出裁决，重申HiQ的行为并未违反CFAA，维持对LinkedIn的禁令。尽管该案中双方的争议焦点是CFAA的适用范围不是不正当竞争，但是CFAA确实是近年来美国针对爬虫行为正当性诉讼中常援引的法律依据之一。鉴于上述因素，ChatGPT类产品行为在美国的判例可能对国内同类案例参考性不强。

2、ChatGPT类产品行为符合国内不正当竞争行为的构成要件

鉴于ChatGPT类产品行为暂无法归类于《反不正当竞争法》第二章“不正当竞争行为”所规定的各种具体的不正当竞争行为中，需要援引“总则”第二条通用条款进行调整。根据最高人民法院在海带配额案[ix]中明确的标准，适用通用条款评价涉案行为需要同时满足如下条件：（1）法律对该种竞争行为未作出特别规定；（2）其他经营者的合法权益确因该竞争行为而受到了实际损害；（3）该种竞争行为确违反诚实信用原则和公认的商业道德而具有不正当性或者说可责性。根据上述标准，笔者认为ChatGPT类产品行为对被被抓取平台构成不正当竞争，分析如下：

首先，被抓取平台对于该等网络公开内容享有反法保护的合法权益。无论被抓取内容是构成作品还是数据，被抓取平台都为作品创作和数据积累投入了大量的人力和物力，且该等内容具有很高的经济价值。比如文首所提及的各种新闻媒体，其运营平台上所刊载的新闻报道，或者由其雇员创作完成，或者支付了版权费用/资源从其他组织或者媒体采购/置换而来，而这都需要相关运营主体投入大量的人力和物力才能实现。根据劳动价值理论，被抓取平台对该等内容享有法律保护的财产性权益。同时，该等内容也是相关媒体在竞争中争取有利竞争态势的核心资源。正是基于上述原因，被抓取平台对该等内容享有合法知识产权或者反不正当竞争法所保护的权益。司法机关在此前的类似案件也进行了确认。例如在微博诉脉脉案[x]中，二审法院认为，“本案中，被上诉人微梦公司经营的新浪微博兼具社交媒体网络平台和向第三方应用提供接口开放平台的身份，通过其公司多年的经营活动积累了数以亿计的微博用户，这些用户根据自身需要及新浪微博提供的设置条件，公开、向特定人公开或不公开自己的基本信息、职业、教育、喜好等特色信息。经过用户同意收集并进行商业利用的用户信息不仅是被上诉人微梦公司作为社交媒体平台开展经营活动的基础，也是其向不同第三方应用提供平台资源的重要商业资源。新浪微博将用户信息作为其研发产品、提升企业竞争力的基础和核心，实施开放平台战略向第三方应用有条件地提供用户信息，目的是保护用户信息的同时维护新浪微博自身的核心竞争优势。第三方应用未经新浪微博用户及新浪微博的同意，不得使用新浪微博的用户信息”。

其次，从行为结果看，ChatGPT类产品行为一方面提高了自身的竞争优势，另一方面还对被抓取平台构成了替代，用户通过ChatGPT的输出内容以获得问题的明确回复后，无需再进一步访问被抓取平台，这必然分流被抓取平台的用户，减少其交易机会。

最后，ChatGPT类产品行为有违诚实信用原则或商业道德。ChatGPT类产品行为不适用于爬虫协议，侵害了其他经营者的合法权益，并对其他经营者造成损害性后果，如果不对该行为予以抑制，将会使得市场经营者通过劳动积累的、具有较高经济价值的核心竞争资源被他人随意攫取，“不劳而获”盛行，最终导致没有经营者愿意投入人力和物力进行内容的创作、收集和整理，而这无论是对行业秩序还是对于消费者利益都是有害的，有违诚实信用原则。正如法院在大众点评诉百度地图案[xi]中所论述的那样，“百度公司并未对于大众点评网中的点评信息作出贡献，却在百度地图和百度知道中大量使用了这些点评信息，其行为具有明显的“搭便车”、“不劳而获”的特点。基于上述因素考虑，一审法院认为，百度公司大量、全文使用涉案点评信息的行为违反了公认的商业道德和诚实信用原则，具有不正当性”。

三、结语

法律仅是社会问题的一种解法。就ChatGPT类产品行为所引发的社会问题，行业也已开始寻找法律之外的商业解决路径。如Open AI和美国图片巨头Shutterstock达成合作，后者在产品中引入Open AI的DALL-E 2产品能力，用户可以借助后者实现从文字到图片的智能创作，极大丰富了产品功能；与此同时，Shutterstock将设置“贡献者基金”，对用于DALL-E 2训练和学习的图片作者进行补偿。除此之外，网站运营者也可以采取主动措施，如在robots.txt写入禁止ChatGPT爬虫的语句，阻止内容抓取行为。正如此前国内互联网行业反复上演的剧情一样，各方经过初期的角力和博弈，最终会达成一个利益平衡的方案。

[i] 丛文辉诉北京搜狗信息服务有限公司著作权侵权纠纷，一审北京市海淀区人民法院，案号：（2013）海民初字第11368号；二审北京市第一中级人民法院，案号：（2013）一中民终字第12533号；

[ii]《网页快照服务提供行为的侵权认定》，芮松艳著，http://www.chinaipmagazine.com/zl/Column View.asp?fId =59&id=109；

[iii] 上海美术电影制片厂（“上美厂”）诉浙江新影年代文化传播有限公司（“新影年代公司”）、华谊兄弟上海影院管理有限公司（“华谊公司”）著作权纠纷，该案中，新影年代公司投资制作的电影《80后的独立宣言》正式上映，宣传海报中使用了上美厂享有合法权益的“葫芦娃”和“黑猫警长”卡通形象，上美厂认为新影年代公司未经许可，使用上述两个角色形象的美术作品，构成对其修改权、复制权、发行权、信息网络传播权的侵犯；华谊公司在其官方微博上发布了该电影的涉案海报，构成对其信息网络传播权的侵犯，并与新影年代公司构成共同侵权。故诉至法院，请求判令新影年代公司和华谊公司连带赔偿上美厂经济损失及维权费用合计人民币53万余元。新影年代公司提出抗辩，认为涉案电影讲述的是“80后”青年创业故事，其对涉案作品的使用是为了说明电影主角的年龄特征，构成著作权法上的“合理使用”，不构成侵权；

[iv] 王莘诉谷歌公司、北京谷翔信息技术有限公司侵害著作权纠纷，一审北京市第一中级人民法院，案号：（2011）一中民初字第1321号；二审北京市高级人民法院，案号(2013)高民终字第1221号。在该案中，一审法院认为谷歌公司将涉案作品进行电子化扫描的复制行为不属于合理使用，构成侵权；同时，谷翔公司实施的涉案信息网络传播行为构成合理使用，谷翔公司和谷歌公司并不应对此行为承担侵权责任。谷歌公司不服一审判决提起上诉。北京市高级人民法院二审认为谷歌公司虽然主张其复制行为构成合理使用，但并未就此进行充分举证，最终认定复制行为构成侵权。二审法院在判决中同时指出，“专门为了合理使用行为而进行的复制，应当与后续使用行为结合起来作为一个整体看待，不应当与后续的合理使用行为割裂开来看。换言之，如果是专门为了后续的合理使用行为而未经许可复制他人作品，应当认定为合理使用行为的一个部分，同样构成合理使用”，但因为一审原告未提起上诉，二审法院并未就一审法院认定谷翔公司的信息网络传播行为构成合理使用专门展开论述。但是根据二审法院的逻辑，可以清楚的推论出二审法院认为涉案信息网络传播行为也是构成侵权的；

[v] 谷歌数字图书馆项目，是谷歌与部分图书馆合作，由图书馆从他们的藏书中选择书籍交给谷歌，谷歌通过扫描形式制作图书电子版，并收录到谷歌数字图书馆中。谷歌在此基础上推出了“谷歌图书”产品，该产品可以根据输入的检索关键词，向用户提供包含关键词的图书以及关键词在图书中出现的次数，以及几个世纪以来该关键词使用频率的统计数据；同时搜索结果还会显示含有这些关键词的文字片断，通常不会超过八分之一页；

[vi] 参见尾注iv;

[vii] The AUTHORS GUILD, INC., Betty Miles, Joseph Goulden, and Jim Bouton v. GOOGLE INC.；

[viii] 北京字节跳动科技有限公司诉北京微梦创科网络技术有限公司不正当竞争纠纷，一审法院为北京知识产权法院，案号：（2017）京73民初2020号；二审法院为北京高级人民法院，案号：（2021）京民终281号；

[ix] 山东省食品进出口公司、山东山孚集团有限公司、山东山孚日水有限公司与马达庆、青岛圣克达诚贸易有限公司不正当竞争纠纷，最高人民法院再审案件，案号：(2009)民申字第1065号；

[x] 北京微梦创科网络技术有限公司诉北京淘友天下技术有限公司、北京淘友天下科技发展有限公司不正当竞争纠纷，一审法院为北京市海淀区人民法院，案号：2015年海民(知)初字第12602号；二审法院为北京知识产权法院，案号：（2016）京73民终588号；

[xi] 上海汉涛信息咨询有限公司诉北京百度网讯科技有限公司、上海杰图软件技术有限公司不正当竞争纠纷，一审法院为上海市杨浦区人民法院，案号：（2015）浦民三（知）初字第528号；二审法院为上海知识产权法院，案号：（2016）沪73民终242号。

标签：ChatGPT 类产品抓取使用网络公开内容法律定性

学术研究

ChatGPT类产品抓取并使用网络公开内容的法律定性

投诉电话：

咨询电话：