生成式AI著作权侵权风险化解路径探究.pdf
版权管理与立法保护
BANQUANGUANLIYULIFABAOHU
生成式AI著作权侵权风险化解路径探究
◎谭伟
[摘要]文章通过分析生成式AI著作权侵权现状以及现行著作权法框架下生成式AI的侵权化解困境发
现,现有法律文本下的生成式AI侵权应对策略存在以下不足,即授权许可模式失灵、现行合理使用制度存
在适用困境。对此,文章从合理使用的判定方式、增设专门条款两个方面提出因应化解侵权风险的合理使
用制度改造方案,以期为生成式AI的多领域适配、多行业赋能给予更高的灵活性。
[关键词]人工智能;著作权法;合理使用;数据训练
2022年,美国OpenAI公司开发的ChatGPT(Chat在我国法律框架下实现健康良性发展。
GenerativePre-trainedTransformer)一经发布便火
一、生成式AI著作权侵权现状
爆全网,并引发社会各界的热议。ChatGPT可通过对话
的模式完成用户所指定的各项任务,如回答问题、翻当前,生成式AI的开发整体分为“输入—学习—
译、文本写作甚至程序编写等。然而,ChatGPT并非输出”三个阶段,因此生成式AI的著作权侵权问题也
仅是性能优越的聊天机器人,其还是OpenAI公司使可以细分为输入端和输出端,也有学者将其称为生成
用大量优质数据集进行训练,并经过一系列复杂的内式AI作为“读者”的著作权侵权问题和生成式AI作
部算法操作而得到的基础模型。通过专业优化训练,[5]
为“作者”的著作权侵权问题。
ChatGPT可以适配不同的场景,为多个行业赋能。未第一,在输入阶段,相关著作权侵权问题主要与
来,ChatGPT这类生成式AI甚至可能成为人工智能时生成式AI的预训练(Pretrain)相关。预训练作为AI
[1]
代的新型数字基础设施。模型开发的核心步骤,极大地推动了生成式AI的落地。
虽然生成式AI前景一片大好,但是当前其应用还例如,ChatGPT在预训练阶段就需要输入超万亿个单词
须面临一系列挑战,如著作权侵权、算法歧视、生成的人类语言数据资料作为训练材料,而这些数据资料
内容帮助他人犯罪等,给个人隐私保护、算法安全、主要来自于Reddit社交媒体平台、CommonCrawl语料
[2][6]
数据主权乃至国家安全都带来巨大的风险。以著作库、维基百科、WebText语料库、书籍等。这些海
权侵权为例,美国有8000多名作家联名要求多家知名量的数据让ChatGPT能快速获取通用知识,从而掌握
人工智能企业赔偿他们的版权损失,道琼斯公司发布涌现能力,这也是生成式AI能够高速发展的关键。值
声明指责OpenAI公司未经其许可违约使用《华尔街得注意的是,这些训练数据并非都来源于公共领域,
[3]
日报》的内容,StabilityAI未经授权使用图片公部分数据来自某些数据库。尽管当前我国著作权法并
司Gettyimages网站上大量的图片链接及文本来训练未对相关主体获取数据库的数据作明确规定,但是相
[4]
StableDiffusion