随着人工智能技术的发展与应用,版权成为这个领域非常重要的问题。它和现在的数据,包括算力、深度学习或者深度伪造等很多问题,之间存在着非常直接密切的关联。
近日,中国版权协会远集坊就“人工智能生成内容版权问题”进行研讨,邀请了司法界、科技界以及数字内容产业的众位嘉宾做分享。
数字时代的底层逻辑究竟是什么?
人类逐渐感知到数字时代带给社会生活、社会关系生产方式、生活方式的冲击,数字时代的法律变革是人类历史上的第二次根本性的变革。
数字时代的底层逻辑究竟是什么?中国法学会副会长甘藏春认为,主要有由传统法治的二元结构转向三维结构,有虚有实、虚实同构的数字社会关系形成,以及数字人、数据权利等新的法律基础概念等几个特点。
在数字时代,人除了自然人的属性以外,还有一个属性叫数字人,同样一个生物人可能有多重的数字身份发生着各种社会关系。人类无法找到纯粹的物理时空和生物行为,数字化的元素、数字化的场景、数字化的表达等将成为未来社会一个基本的色调。整个法律的底层逻辑已经发生了变化,人们需要研究与应对这些底层基本逻辑。
数字法治带来的是整个法律制度的变革。在版权保护领域、知识产权领域、反垄断领域都要利益平衡。在数字时代,成为透明人的人类将面临人权将如何保护。
如何界定与保护数字化作品的版权?
对外经济贸易大学法学院教授卢海君认为在探讨数据挖掘的过程中,怎样去解决版权授权付费的问题,并不是任何东西都是可版权的,其中包括很多数字化作品。
ChatGPT 用的是全网抓取的数据,那么这些数据当中存在有版权保护的作品,和没有版权保护的作品。如果都需要通过版权这个路径来解决,就会存在很多的坎坷。
GPT 所生成的内容,它的创作者是人吗?有意识吗?有思想吗?有感情吗?创作出来的东西是不是思想情感的外在表现?现行著作权法的回答仅是这个东西可能还不能够完全的嵌入到著作权法当中,可以在正确认知数据二元性基础上来寻求人工智能数据挖掘问题的解决方案。
数据具有二元性,它之上可能有个人信息、公共利益、版权保护的作品、科学的数据、商业机密等在内,都可以受到一定程度的保护。比如说专利权、商业秘密权还有版权的保护,但是它跟数据本身之间有区别,数据是它的载体。
从数据的二元性本身的认识出发,解决人工智能数据挖掘当中的问题,可能是更加可行的一个方案。从作品的版权保护的角度来去衡量这个问题很难解决,包括很多数字化作品是没有版权保护,而不是在于说数据上承载的这个作品有没有版权。
卢海君教授强调人工智能产业发展是大势所趋,不应为人工智能产业的发展设置太多的障碍,在人工智能数据挖掘的问题上,应关注数据本身,而不是数据上承载的内容,企业可根据数据的价值付费,如果想有更优质的数据,开发者可以购买各种数据包,以开发出更具有竞争力的人工智能产品。他同时建议权利人和产业界加强对技术保护措施的运用。
大模型推动下的数智化场景应用
澜舟科技创始人兼CEO、中国计算机学会副理事长周明认为,以ChatGPT为标志的大模型产品,代表着语言理解、多轮对话、问题求解进入了一个可实用的时代,有效解决了自然语言处理中任务碎片化的问题,大幅度提高研发效率,标志着自然语言处理进入工业化实施阶段。
但目前生成式人工智能产品在专业领域的落地使用并不是简单的事,在它的构想中,需要进行三个层次大模型——通用大模型、行业大模型、任务大模型的训练。生成式人工智能产品才有可能逐渐从通用走向专用,大幅度提升个人和企业的工作效率。
数传集团CEO施其明结合人工智能在数传集团发展中的一些经验和做法,谈了他对生成式人工智能版权价值的看法。
AIGC 在图书的服务领域运用的场景还是非常非常多的。在各类的内容生成,用户之间的交互、机器人和人之间的交互当中,很多读者在通过智能化服务之后,会产生的后续的付费、阅读的满足感、阅读的延展性阅读,这其中的 90%都是AIGC 的机器人在与读者做互相的交互。
针对AIGC运用场景下的资源服务,数传集团也历史上第一份和人签的数字人的版权。当然这个版权的定义现在很不清晰,也是非常直接的版权问题。版权的价值在哪里?
伴随版权疑问,其实源于 AIGC 的版权的商业价值就会逐步出现。近期,日本、美国已经有专门针对元宇宙版权和数字人版权相应的采购机构,他们认为及早的布局这些版权市场对未来的价值是很强的,就像及早布置数字图书、有声图书、电影版权等……
提早布局这个版权市场,在未来生成式人工智能的版权定义清晰化之后,可以形成巨大的经济效益。
AIGC 时代,开启数字版权保护新格局
从OpenAI推出的GPT系列,一直到现在GPT 4. 0标志性的产品出现,已经证明人工智能达到了人类的智能水平,2023年也被称之人工智能的历史性时刻。
AI 技术的发展,其实对于内容产业,尤其是数字内容产业带来全新的机遇。
在整个 AIGC 领域,高质量的数据是 AI 模型的底层基石,从大数据转移到高质量数据,这是至关重要的。AIGC 产生的新型内容产品过程中,AIGC模型很难去保证数据质量的准确性或者答案的准确性。
欧盟在首例 AIGC 的侵权案件发生之后公布了一项新的法律提案——人工智能法案,这也是全世界第一部人工智能的立法,即将在2024年正式生效。
那么如何去构建数字内容的版权保护体系?中文在线董事长兼总裁童之磊提到:首先提供高质量的数据,其次是强化版权服务,第三是构建版权保护的联盟。AI 今天带来的版权挑战,既然是以技术为起因,那就应该以技术去应对,从而去解决 AI 产能认证的新的版权挑战。
关于 AIGC和ChatGPT,从版权角度ChatGPT的训练过程使用了大量的数据和文本,清华大学新闻学院教授、元宇宙文化实验室主任沈阳认为从文本的角度走向多模态的角度,数据的预训练是第一个涉及到版权的阶段。生成的内容是需要由提示词来引导,那这个提示的版权怎么样进行保护?提示语的版权保护,未来应该也将会成为一个需要保护的领域; AIGC自己产生的数据AIGD,相当于二次数据,从一次数据到二次数据的版权保护。内容的这种一种数据的保护,其实也包括了行为数据的保护。
携手保护数字版权,开启 AIGC 版权保护的新的格局。进一步完善数据相关的立法,推动在现有法律框架和未来新的法律框架下的司法保护。
国际应对人工智能生成及内容版权司法保护的监管政策
鉴于人工智能技术爆发出的一个巨大的生产力,目前人工智能生成的内容占所有内容不到1%,但是有数据来预测,将在很短的时间达到10%,甚至更高。
北京互联网法院综合审判一庭副庭长朱阁结合自身的工作环境,谈了她对人工智能生成内容版权司法保护的实践与思考:通用的人工智能,可以像人一样进行感知、理解和交互,也存在人可能被塑造、被取代,社会财富分配不均衡等风险。
我国作为相对较早监管人工智能技术的国家之一,整个法律体系对人工智能技术都有相应的规制和服务管理办法。未来的发展思路促进发展同步的进行依法的治理与规范,在全球合作的法律体系下,共促发展、共护安全、共享成果。
国际上不同的国家有不同的监管政策:意大利比较明确禁止使用ChatGPT;德国、加拿大等国家也表示出于数据保护的方面的考虑,将禁止使用ChatGPT,或者采取更加严格的监管;欧盟在最新的立法草案中提出应该严格禁止对人类安全造成不可接受风险的人工智能系统,同时要求人工智能公司对它的算法保持人为控制提供技术文件,并且要为高风险应用建立风险管理系统;美国在今年1月份发布的一个人工智能的风险管理框架,实际上也是一个发展和治理的这么一个思路。
那么,关于人工智能生成内容是否能够获得版权保护,具有两种观点,一种是不能构成作品,是从人工智能生成物的过程来进行分析,从机器属性和人在其中的参与程度进行的分析,还有认为它可以纳入临界权的制度进行保护。
比如澳大利亚的一份报告认为计算机生成的内容无法达到独创性的要求,只能作为临界权的客体进行保护。日本认为它是作为一个道具被使用,所生成的内容不是日本著作权法规定,就不存在对它享有著作权。
第二个观点是认为人工智能生成物只要在外在表达形式上与人类创作的作品一致。大模型所生成的内容,它显然在表达上与人类基本是一致的,就可以作为作品来进行一个保护。
中国科学院大学知识产权学院副教授、中国科技法学会人工智能法专委会执行主任刘朝分享了对国外生成式AI训练内容相关版权诉讼的思考。
现在案例中因为新技术出现的时候,关于法律能够对现有的技术规制多少?核心的问题就是生成出来的训练数据中包含未经许可的作品或片段,所以才会产生诉讼。针对这样的情况,现有的法律框架中存在哪些风险和问题?
首先,衍生作品的界限判断,衍生作品本来在版权法中不被认为是一个有多大争议的,但是现在由于生成式的AI训练数据出来的衍生作品恐怕人们要重新探讨和认识,这是一个合理使用的判定。其次,商业和商业信息的风险输入的时候,存在风险的商标侵权。最后,关于版权许可,按现在的新技术的发展,真的是不能解决的吗?
刘朝教授举例,美国在这样看似这种乱象下出了一个计算机统一信息交易法,它不仅站在软件企业中自己的交易规则,把软件企业突破合同法和版权法的交易规则上升为联邦层面统一基本法,同时要求各州使用这个法律。
针对衍生作品的界限判断、合理使用的判定、商业秘密的风险、版权许可等风险和问题,她认为通过保持著作权的基本逻辑,充分发挥政府、企业和第三方机构的作用,构建创新的商业模式和交易规则,可以解决目前存在的大部分问题。
人工智能是新一轮科技革命的头雁,汇聚共同的智慧,对企业、社会产生重要的价值。数据训练模型的数据使用问题、文本挖掘问题,以及我们人工智能生成的内容的相关的版权问题,在遵循着国家对人工智能的整体发展的思路下,需要在现行法律的框架下对其进行思考、反思,完善或建立新的制度。
编辑:Kean