1. 引言
人工智能对著作权法的影响引发了理论和实践的广泛讨论。目前对与人工智能目前对于人工智能在著作权法上的讨论主要集中在人工智能生成内容能否构成作品,即人工智能生成内容是否具有可版权性的问题,以及如果认为构成作品的话,其权利归属的问题。上述问题主要集中于人工智能输出端,虽未达成一致意见,但学者们对其已进行了比较充分的论述。而人工智能生成内容能否构成作品的问题其实上不能算是全新的问题,每当一项新技术改变或削弱作者在创作过程中的作用时,我们都会提出类似的问题。回顾照相机出现的时代,我们也在疑问相片能否成为作品。
然而,人工智能在有可能成为“作者”之前,首先是“读者”, [1] 没有前阶段海量数据和作品的输入供人工智能进行深度学习,也就不会有人工智能生成内容的出现。而这是比人工智能生成内容可版权性更现实也更迫切的问题,因为不论人工智能是否能生成作品,其必然需要海量数据和作品的输入,而这一复制行为如果没有其他抗辩理由的话,就有可能侵犯权利人著作权的。比如2004年谷歌发起的数字图书馆计划,谷歌通过光学字符识别技术,将所扫描的书籍转化为机器可读的文本,以供用户进行关键词检索。这一全篇复制作品的行为是否侵犯权利人著作权?又比如微软小冰能够写诗的前提是研发人员将519位中国诗人所作的诗扫描复制成为机器可读的文本供小冰进行学习,这一复制行为又是否侵犯权利人著作权?
目前学界对机器学习的规制方式大致分为两种观点,一种是认为机器学习属于合理使用, [2] 一种观点认为机器学习不属于合理使用,应当用法定许可制度进行规制 [3]。本文将分析合理使用制度在面对机器学习时陷入的两难境地,并探求平衡人工智能公司利益和著作权人利益的规制路径。
2. 机器学习的方式及其侵权可能性
思想表达二分法是著作权法保护的基本原则之一,著作权法保护作者具有独创性的表达而不保护抽象的思想。因此根据机器学习是否包含作品的表达可以分为非表达型机器学习和表达型机器学习,并且不是所有的机器学习都会侵犯权利人著作权。
2.1. 非表达型机器学习不会侵权著作权
非表达型学习是指机器在学习输入作品的过程中,学习的内容不包含作品的表达性内容,而著作权法保护的是作品的表达,因此,非表达型机器学习不会侵犯到权利人的著作权。典型例子如人脸识别技术,在人工智能识别技术研究进程中,人脸图像数据库对于算法的实现、模型训练、算法测试以及系统性能测试起到非常关键的作用。而这些人脸图像数据库中难免包含了著作权作品。LFW数据库(Labeled Faces in the Wild)是目前用得最多的人脸图像数据库,其包含了从网络上下载的超过13,000张图像,其中包含了许多著作权作品,那么机器对这些作品的学习是否会侵犯权利人的著作权呢?答案是否定的。因为机器学习的对象是这些图像的非表达要素,即人脸的特征,而不是图像中具有美感的光影、色彩、拍摄角度等具有独创性的表达要素,学习的目的是提高人脸识别的准确性。有学者甚至将这种使用认为是“非作品性使用”, [4] 非作品性使用是指不同于合理使用的未经许可但可以合法自由使用作品的情形,即将作品不作为作品使用,也即不在著作权法意义上使用作品, [5] 因此不负著作权侵权责任。暂且不论上述情形属于合理使用还是“非作品性使用”,理论和实践上大多认为这样的使用不侵犯权利人著作权。典型案例如上述美国作家协会诉谷歌案,法院认为,谷歌数字图书馆虽然对书本进行了全文复制,但是其复制目的是为了数据挖掘和文本挖掘,其对书本的使用方式不同于一般的目的,谷歌数字图书馆也不是用来阅读书本的工具,因此不会替代或取代书本,因此法院认为,谷歌数字图书馆全文复制的行为属于转换性使用,因此属于合理使用。应当认为,谷歌数字图书馆虽对作品进行了全文复制,但机器学习的内容并不是这些作品的遣词造句等表达性要素,而是作品中被搜索关键词的出现频率等非表达性要素,而这并不是著作权法保护的内容,因此不侵犯著作权。那如果谷歌将其复制的作品用于表达型机器学习时,是否依然构成合理使用,这就值得商榷了。
2.2. 表达型机器学习可能侵犯著作权
表达型机器学习是指机器学习的对象是作品的表达性内容,著作权法保护的是作品的表达,因此,以表达型学习为目的对作品进行复制就有可能侵犯权利人著作权。比如微软公司开发的人工智能产品“下一个伦勃朗”,机器学习了伦勃朗作品中的光影变化、色彩运用等作品表达性要素,生成了颇具伦勃朗风格的“绘画作品”,当然现在伦勃朗的作品已经超过保护期,如果作品仍在保护期内,微软公司还能如此堂而皇之地自由使用这些作品吗?又比如,谷歌公司开发的智能回复系统(Smart Reply)复制和分析谷歌Gmail用户邮件内容,生成了一些较为生硬的自动回复,而后为了使智能回复更加“人性化”,谷歌给机器输入了浪漫爱情小说的数据库。谷歌工程师称浪漫爱情小说是很好的学习对象,因为它们用不同的语言去讲述相似的情节和故事,小说中的语言、措辞和语法往往比大多数非小说的语言、措辞和语法更加多样和丰富 [6]。很明显,谷歌智能回复系统学习的是作品中具有独创性的表达,而这正是著作权法保护的核心。谷歌这一未经作者同意亦未通知作者的做法引起了美国作家协会的不满,谴责谷歌这一公然将作品表达性要素用于商业用途的行为。
通过上述分析,可以发现非表达型机器学习不会侵犯权利人著作权,而表达型机器学习则触及了著作权法保护的核心,即作品的表达性要素。因此,下文将讨论的重点放在对表达型机器学习的规制路径,探讨将合理使用制度适用于表达型机器学习是否合理?又或许需要其他路径对表达型机器学习进行规制?
3. 适用合理使用制度引发的问题
3.1. 可能会替代原作品的市场
著作权是以保护权利人为核心的法律。之所以要强调对权利人的保护,是为了鼓励人的创作,促进文化发展。而人工智能生成物的迅速发展有可能替代原作品的市场,打击人类作者创作积极性,如果放任人工智能对原作品表达性要素的学习,未来甚至有可能让人工智能主宰人类的文化生活。而这绝不是危言耸听。人类写诗需要灵感,但微软小冰写诗只需要学习,微软小冰“师从519位现代诗人,经过6000分钟、10,000次的迭代学习”,就能生成70928首现代诗,其生成内容的速度使任何一位人类诗人都只能望其项背,目前人工智能出诗集还算是罕见的事,但如果任由人工智能学习人类作品中的表达性内容,那未来的图书市场恐怕需要标榜“人类创作”来吸引读者眼球了。
此外,音乐市场也不能幸免。微软小冰继出版书籍、求学中央美院后,又完成了在上海音乐学院工程系的学习,上海音乐学院音乐工程系老师陈世哲表示,小冰已经有能力创作包括旋律、编曲及歌词在内的完整音乐作品,而且一首三分钟长度的完整歌曲,平均创作时间只要在两分钟以内。这样的生产速度一方面值得令人欢呼科技之进步,另一方面也不禁引人担忧机器生成的音乐会侵占原作品的市场份额。无独有偶,Jukedeck作为一家通过机器学习来生成音乐的人工智能企业,其公布的机器学习数据库的音乐来源于公有领域,但是学者发现,Jukedeck生成的音乐流派中不仅包含已经落入公有领域的音乐流派,而且包括近四十年才出现的音乐流派,因此,有理由怀疑Jukedeck的机器学习内容包括尚在保护期内的音乐作品 [7]。不仅如此,Jukedeck生成的音乐虽然尚未获得听众的广泛喜爱,但是其目标市场并不在音乐排行榜之上,而是在于短视频、游戏和商业广告的背景音乐市场, [8] 其所收取的版权使用费当然地会低于人类所创作的音乐,造成对人类音乐作品市场的挤压。
因此,不论是机器对文学作品遣词造句的学习、还是对音乐作品旋律、节奏等表达性要素的学习,都可能侵占原作品的市场,尤其是在人工智能生成速度极快、用于商业用途且授权费用相较人类作品更低的情况下,对人类作者的打击就更大。而使机器能自由地使用人类的艺术结晶而无需付出相应的对价,明显是对机器的偏袒,对人类的歧视,这明显是不合理的。
3.2. 破坏原有潜在的授权市场
除少数国家对机器利用作品的性质作出明确定性外,目前机器利用作品的性质在大部分国家尚未有定论。但是大多数互联网巨头在其用户协议中载明以用户授权其数据或创造内容的使用权换取应用程序的免费使用的条款。腾讯微信用户协议中载明:“用户同意腾讯为实现产品目的,对用户发布的特定公开非保密内容在法律允许的范围内进行使用。”新浪微博用户协议中载明:“用户同意微博运营方对微博内容(微博内容即指用户在微博上已发布的信息,例如文字、图片、视频、音频等)享有使用权。”根据该条款,互联网巨头就享有了将用户创造内容用于机器学习的权利。
仍以上述谷歌开发邮件智能回复系统为例,谷歌利用了谷歌邮箱用户的邮件内容来训练机器,而授权依据就是谷歌的用户协议。谷歌于2015年推出智能回复系统,根据谷歌2014年版的用户协议,其载明“当用户将内容上传、提交、存储或发送到我们的服务时……授权谷歌一项全球性的许可,允许其使用、托管、存储、复制和修改、常见衍生作品;谷歌自动化系统会对包括电子邮件在内的内容进行分析,以便为用户提供更符合个人需求的产品服务……”并且最新版的用户服务协议也保留上述内容使用许可条款。因此,谷歌可以在使用用户电子邮件内容前已经获得了用户许可,即其使用用户电子邮件内容尚无需用到合理使用作为抗辩理由,虽然其他邮箱用户发送给谷歌邮箱用户的内容也被用于机器学习的合法性及合理性尚且存疑,但至少说明用户创造内容对于互联网平台来说价值巨大,而且平台也有请求授权的意识。如果说用户是以其创造内容来交换免费使用平台应用程序的权利,那么机器利用原作品的作者获得了什么呢?赋予机器利用作品合理使用的权利,会打击已经存在的用户创造内容的授权市场,对于作品权利人也是不公平的。
3.3. 与合理使用初衷相悖
建立合理使用制度的初衷是为了解决后续作者为了创作新作品而利用先前作者的作品的问题。传统语境下的前后创作者均是个人,因此为了促进文化传播、限制赋予权利人过大的权利,需要合理使用制度来平衡各方利益。然而在人工智能时代,机器学习能力之强大,生成内容速度之快已经威胁到了人类作者,原作者与后续创作者的天平已经倾斜。正如学者Sobel所指出的:合理使用制度原本是一种以牺牲大型内容制作公司利益来补贴公共利益的再分配机制,但是互联网促使了用户创造内容的快速发展,互联网巨头需要从普通公众处获得资源用于机器学习,如果允许机器学习的合理使用,会削弱公众利益而增强大公司的利益,这不符合合理使用的初衷 [9]。
4. 不适用合理使用制度引发的问题
4.1. 限制人工智能技术的发展
如果机器学习不能适用合理使用制度,则需要对其使用的作品进行付费,机器的能力一定程度上取决于其输入作品的数量和质量,因此机器学习所需的作品是海量的,这笔授权费用对于从事人工智能研发的公司而言是一笔巨款,可能只有大型从事人工智能研发的巨头才能负担得起这笔费用,促使大公司成为人工智能研发领域的垄断者。
另外,负担不起成本的小公司则可能将研发基地转移至对机器学习规制手段较为宽松的国家,比如美国、日本等国家。美国采取的是较为宽松的转换性使用标准,法院在对一行为是否属于合理使用作出判断时,需考察美国1976年版权法第107条规定的传统四要素,即使用的性质和目的;被使用作品的性质;使用作品的数量与质量;对被使用作品的潜在市场或价值的影响。而后在一系列案件中逐步发展出转换性使用理论,即突出强调了传统四要素中第一要素的重要性。1994年美国联邦最高法院在坎贝尔案中认为使用创新作品的目的和特点的转换性越强,其他要素的重要性就越弱。如上述美国作家协会诉谷歌案,法院认定谷歌全文复制作品行为的目的是供网络用户进行关键词检索,创新了书本的使用方式,因此属于转换性使用,认为谷歌全文复制作品的行为属于合理使用。虽然在此案中,谷歌公司使用的是作品的非表达性要素,如上文所述,确实不属于侵犯权利人著作权的行为,但是美国法院采取的转换性使用标准也成了人工智能公司在使用作品表达性要素时的“抗辩理由”。比如谷歌公司发言人断言其开发的智能回复系统中对作品的使用不会侵害到作者权利,而且这种使用是出于与作者完全不同的目的,因此属于美国版权法下的合理使用。此外,2009年日本著作权法也以“计算机分析例外”的名义规定了文本数据挖掘的例外,并在2018年修订著作权法时借鉴了美国的转换性使用理论,将作品利用的目的规定为“提供新的知识和信息”,并且没有将其限定在非商业使用目的上, [10] 这对于人工智能研发公司来说是一个极大的利好消息。
如果我国不能让机器合理使用人类作者的作品,就可能导致新兴的人工智能研发产业转移向其他规制宽松的国家,对我国人工智能产业发展的打击是巨大的,而这也绝不是我们希望看到的局面。
4.2. 导致算法歧视和偏见
机器利用作品不能使用合理使用制度的另一个结果就是机器转而学习那些易得的、成本低的作品,而这些作品往往具有较强的歧视性。比如目前已经落入公有领域的作品大多是上世纪五十年代前的作品,而这段时间创作的作品,对于种族、性别等方面的认识仍比较落后,如果机器只能学习这些知识的话,根据机器强大的学习能力,其生成的作品可能比原作品的歧视性更强,而这显然也不是我们希望看到的结果。
除了公有领域的作品外,机器还可以学习采取公共著作权许可协议比如知识共享许可协议(CC协议)的受版权保护作品。CC协议为创作者在“保留绝对权利”和“公共领域”之间提供了多样的选择,以促进知识的传播,比如,作者可授权公众自由地复制或利用其作品。然而,即便有CC协议,也不能很好地解决算法歧视和偏见的问题。比如维基百科也是积极开展CC协议的重要主体之一,目前仅英文版维基百科就有超过550万篇经CC协议授权的文章,维基百科成为现代人工智能系统学习的重要来源 [11]。然而即便维基百科上有那么多可供人工智能免费学习使用的内容,也并不能解决算法歧视的问题。有研究表明,2011年维基百科的编辑者只有8.5%是女性,这样悬殊的性别比例也反映在其编辑的内容上,比如在传记类文章的编辑中,女性传记相比起男性传记更容易被漏掉一些重要信息,这样的缺漏有可能影响人工智能学习到的内容,导致其生成内容可能含有偏见。那么在这种情况下,欲使这种偏见的可能性降低,合理使用的规制路径可能是更好的。
5. 折中的规制路径——法定许可制度
5.1. 法定许可制度的可行性
通过上述第二、三部分的分析,我们发现过度宽松的合理使用制度可能会侵犯到著作权人的专有权利,而且将合理使用制度适用于机器学习合理使用的初衷也并不相符。但过度限制机器对作品的学习,也会遏制这个新兴产业的发展。因此,折中的法定许可制度未尝不是一条适合规制机器利用作品的路径。
结合法定许可制度的立法背景来看,法定许可制度的立法初衷是为了调和新旧产业主体之间的利益分配以及抑制著作权市场的垄断 [12]。如上文所述,人工智能生成内容的著作权市场有极大的可能会替代原作品的著作权市场,机器学习需要海量的作品,人工智能产业与原作品权利人之间的协商成本过大,甚至会出现原权利人不愿意将其作品授权给机器使用的情形。因此,在这个新产业初现的时点,由具有折中性和妥协性的法定许可制度来规制机器利用作品的行为可以有效地降低人工智能产业与原权利人协商的成本,既能保证著作权人的权利,又能促进新产业的持续发展。当然法定许可制度并非一个完美的解决路径,比如人工智能产业还是可能趋向于在认定机器利用作品属于合理使用的国家和地区发展,只能说法定许可制度是能兼具新产业发展和著作权人利益的现实路径。
5.2. 法定许可制度的落地
关于如何知道机器利用了什么作品的行为,有学者提出可以利用区块链技术对机器利用作品的行为进行追踪。区块链是去中心化的分布式账本技术,利用密码学保证数据传输和访问的安全性,区块链技术具有多中心化、不可篡改性、可追溯性和透明性的特点, [13] 能够有效地追踪到人工智能利用作品的情况,为后续的收取费用奠定技术基础。
另外,在适用法定许可制度时,法定许可费用也是一个重要问题。目前我国法定许可费用很低,很难维护著作权人的合法利益。《教科书法定许可使用作品支付报酬办法》规定教科书汇编者支付报酬的标准根据不同的作品类型分为:文字作品每千字300元,音乐作品每首300元;《录音法定许可付酬标准暂行规定》第三条规定录制发行录音制品的付酬标准,如纯音乐作品版税率为3.5%。这样的标准相比起人工智能产业所获得的利益实在是微不足道,如果法定许可费用无法真正关切到著作权人的利益,无疑只是为侵权行为盖上一层合法的面纱。应当如何收取合适的法定许可费用也是值得探讨的问题,关系到适用法定许可制度规制机器学习行为的合理性。一方面,如果法定许可费用规定得过高的话,依然会打击人工智能生成内容著作权市场的发展,而过低的法定许可费用则会损害作品著作权人的利益。因此,宜由了解作品著作权市场的各类作品协会制定合理的法定许可收费标准。
6. 结语
比判断人工智能生成内容是否构成作品更为急切的问题是人工智能在前期深度学习阶段对海量作品的复制行为应当如何规制,笔者将人工智能学习的类型分为非表达型机器学习以及表达性及其学习,认为非表达性机器学习不构成侵权,而表达型机器学习则可能构成侵权。对于表达型机器学习的规则路径,合理使用制度会使其陷入两难境地,因此笔者建议可使用折中的法定许可制度来规制人工智能的表达型机器学习,平衡人工智能发展需要以及作品权利人的利益保护。