出品 | 搜狐科技
作者 | 梁昌均
随着越来越多的AI大模型产品陆续向公众开放,全民进入AI新时代。
目前,已有百度文心一言、字节云雀、百川大模型、智谱清言、商汤商量、讯飞星火、360智脑等十多款大模型产品获批通过,并开放服务;其中文心一言、讯飞星火等在开放不到24小时就突破百万用户。
这势必也会将带来更大范围内的信息收集、使用等数据流动,甚至不排除更大规模的侵权情况。早前火爆的妙鸭相机就因“霸王条款”,被外界质疑涉嫌侵害用户个人信息。
然而,不少用户出于对大模型产品的尝鲜或好奇心理,在注册使用前并不会特别仔细去阅读用户协议或隐私政策等相关规定,往往都是直接点击同意。这意味着,如果发生侵权事件,用户很可能就会处于不利局面。
中国科学院院士何积丰近日在外滩大会上就提到,大模型的安全问题主要是在未经同意的情况下,收集、使用和泄露个人信息。“这既可能发生在训练过程中,也可能发生在使用过程中,而大模型的生成能力则让隐私泄露的方式变得多样化。”
搜狐科技就此查看了多款开放大模型产品的用户协议、个人信息或隐私政策,并采访了法律专家,对平台关于用户信息收集、使用等,以及知识产权等问题进行了解读。
用户信息会被用来训练模型,部分仍存“霸王条款”
在互联网世界,为了便利,交出数据、换取服务成为很多时候的常态。如今当使用这些开放的AI大模型应用时,用户依然被要求交出数据使用权。
目前这些大模型产品的用户协议中全都提到,会利用用户输入或输出内容、互动反馈信息等去训练优化模型,提高产品的内容质量、响应速度等。
由于用户输入或输出内容往往会涉及到多个层面,除一般信息,还会有个人信息甚至是敏感信息。但不少规定都把信息保护问题甩给了用户,比如百川智能、智谱清言、讯飞星火均提到,建议用户不要或谨慎输入个人信息,因此可能会影响正常使用部分或全部功能。
上海大邦律师事务所高级合伙人、知识产权律师游云庭对搜狐科技表示,平台在用户上传信息阶段应当设计自动的过滤机制,过滤掉个人信息。“现在很多规定是让用户尽量不去上传个人信息,但平台应该有责任和法定义务去过滤,从而真正地保护好用户个人信息。”
目前,提出过滤机制的企业并不多。MiniMax在隐私政策中称,会提升服务的过滤机制,对可能是用户的个人信息,尤其是个人敏感信息的对话内容进行过滤、删除并不予保存。
MiniMax隐私政策
其它平台对个人信息的使用,则均提到会采取去标识化、匿名化等技术手段,处理后的信息无法识别到特定个人主体,不再属于个人信息范畴,对此类信息的使用无需另行征得用户的同意,包括用于模型优化、商业化分析等。
中国政法大学传播法研究中心副主任朱巍强调称,个人信息绝对不是说不能用,而是企业要依法依规收集使用。《个人信息保护法》规定,只要用户知情同意、允许授权,收集使用过程中不能有欺诈,符合合法性、正当性、必要性等原则,企业就可以用。
同时,朱巍提到,《个人信息保护法》规定,个人信息不包括匿名化处理后的信息,企业使用脱敏后的个人信息可以不再征求用户同意。“脱敏之后的信息属于大数据,但处理者在使用过程中也要符合《数据安全法》等法律规定。”
但在实际情况中,用户很难确认企业是否合法合规地使用了自己的信息。游云庭就提到,要训练AI大模型,需要大规模输入数据来训练,但现在它是个黑箱,用户可能不知道被侵权,就算知道也很难有办法去举证。
他认为,要想确认企业是否侵害了用户个人信息,可能还是要靠法院或行政监管去推动企业更加透明,即AI技术提供方或运营方应当公示自己训练使用了哪些数据。
目前,我国尚未对此作出具体规定。欧盟在今年6月通过的《人工智能法案》要求,生成式人工智能需要披露训练模型时用了哪些有版权的数据。
但这往往被视为企业的商业机密,在算法同质化情况下,训练数据很大程度上决定了模型的质量。OpenAI此前发布GPT-4时便以竞争更为激烈为由,不再披露具体的训练数据。
此外,字节豆包、百川智能、智谱清言、讯飞星火、360智脑等还规定,使用其平台服务,即代表同意将输入、上传、发布等有关信息全世界范围内、永久性的、不可撤销且免费地授权给平台企业,进行存储、使用、复制、修改、展示、商业化研究等。但用户如果想要复制、传播等则需要经过企业书面授权,且不得用平台应用进行商业化开发等。
朱巍对搜狐科技表示,这些规定看起来像“霸王条款”,平台和用户应该起码要权利对等,但考虑到现在用户是免费使用,可能一定程度上有豁免,允许提供服务的一方有更多权利。
“这样的规定原则上不违法,但对用户权利来讲的话不公平。”朱巍还表示,严格按照《个人信息保护法》规定来看,如果以用户个人信息生成的内容还涉及到个人信息,企业要做其它使用或商业化使用,还需要征求用户的二次同意,不能一揽子授权。
生成内容版权到底归谁?业内尚未达成共识
除了个人信息保护,生成式AI的知识产权问题也颇受关注。在输入内容上,所有开放大模型产品都要求用户上传的内容不能侵权,上传的第三方内容则要获得授权。
游云庭表示,这个规定合理。“但现在用户能输入的东西比较有限,还不会产生很大的问题。但如果C端能通过API上传海量文件,平台应该有筛选机制,且要用版权作品来训练的话,还应当取著作权人许可,否则就涉嫌侵权。”
真正引发争议的则是对生成内容的版权,目前尚未达成共识。商汤商量明确称,用户对其生成的内容享有合法权利。豆包隐私政策也表示,公司不主张输出内容的所有权,但如果输入或输出内容含有公司知识产权等,则相应权利仍归公司所有。
豆包隐私政策
智谱清言协议规定,生成内容的版权由用户自行维护并对其独立判断后使用,由此产生的任何知识产权问题由用户自行处理。但稍显矛盾的是,用户若要对生成内容进行复制、传播、或商业化使用等,则需获得智谱华章等书面同意,似乎又限制了用户对生成内容的权益。
智谱清言用户协议
同时,也有企业主张对生成内容的权利。比如百度文心一言用户协议规定,百度拥有对开发和运营过程中产生的所有数据、信息、输出等法律规定范围内的全部权利,相关权利人依法享有的权利的除外。
百度文心一言用户协议
科大讯飞星火服务协议则明确规定,未经书面同意,用户无权复制、传播……或以任何商业化方式使用服务生成的内容(输出内容),并规定输出的相关所有信息内容(包括但不限于文字、图片、音频、视频、图表等)由科大讯飞及其关联方享有完整的知识产权等。
科大讯飞星火服务协议
其它平台态度则相对暧昧,比如360智脑的规定就比较圆滑,称用户产生的内容的知识产权归360公司或相关权利人所有,用户通过平台发布的内容经审核通过,一经发布即向公众传播和共享,没有明确生成内容到底归属于谁。
这反映出当下对AI生成内容版权归属的争议。游云庭认为,著作权法规定人创作才有版权,用户输入内容受版权保护,AI生成的内容则不受版权保护。“现在AI生成内容太简单,可能质量不高,这就能获得著作权法保护,我觉得太轻率。”
“这里面涉及两个法律问题,第一是AI生成的内容不受版权保护,第二AI生成的内容被小规模使用也不受法律保护,达不到触发法律介入的标准。如果是大规模使用,比如成千上万篇,可以用反不正当竞争法来保护。”游云庭表示,AI生成的内容怎样商业化才构成侵权或不正当竞争,这块法律边界还需明确。
朱巍对此则有不同理解。他认为,在弱人工智能时代,AI相当于工具,人依然是创造的主体。按照现在的著作权法来理解,AI生成的作品也有版权,这个版权属于谁使用就归谁。如果到了强人工智能时代,这可能会存在争议。
“对于AI生成内容版权的认定,企业协议怎么写其实都无所谓,它更多是站在自己角度来考虑这些问题,但对法院裁判没有影响。”朱巍提到,最早微博规定在其平台上创造的内容版权归微博所有,但很多案例法院并未这样认定。
朱巍认为,现在离强人工智能还很远,对它的专门立法还太早,现在更多是强调使用规范、科技伦理等方面。“生成式人工智能算是有点入门,但应用、商业场景等现在还看不到,更何况版权问题。”
近日,全国人大常委会发布的未来5年立法规划显示,列入今年国务院立法工作计划的人工智能法并没有出现,显示我国人工智能法距提请立法机关审议仍为时尚早。
“版权是工业时代的产物,互联网时代本来早就应该摆脱版权问题。版权不应该成为AI时代的阻碍,人的创作或创造力会被机器加持,最终产生出的作品可能不再强调是某一个人所有,而是共同完成。”朱巍认为,如果区块链技术通过智能合约普及,让参与主体都有分成,版权就不再是一个法律问题,而是个技术问题。
不过,朱巍认为,随着越来越多的大模型提供公众服务,虚假信息、侵权等问题会更加突出。“借助开源,所有企业都能提供AI服务,入门门槛很低,很多企业也并不是完全合规,这就会产生大量的问题,因此下一步还是要做好底线监管。”