您当前的位置:首页 > 电脑百科 > 人工智能

AI大模型训练背后,一条数据产业链正在形成

时间:2023-08-09 10:59:41  来源:腾讯科技  作者:

文章转载来源:腾讯科技

作者:腾讯科技 郭晓静

图片来源:由无界 AI生成图片来源:由无界 AI生成

“大力出奇迹”、“暴力美学”,这两个词一直伴随ChatGPT的讨论出现。而“大力”和“暴力”,除了“巨大的算力”之外,还有海量的数据。a16z 创始人 Marc Andreessen在Data+AI大会上也提出,二十几年来互联网积累的海量数据 ,是这一次新的AI浪潮兴起的重要原因,因为前者为后者提供了可以用来训练的数据。

OpenAI披露,GPT-3.5的文本语料多达45TB,相当于 472 万套中国四大名著,而 GPT-4 在 GPT-3 和 GPT-3.5 训练数据集的基础上又增加了多模态数据。而7月18日,Facebook母公司Meta发布首个开源可商用的大语言模型的Llama2,预训练预料高达2 万亿token。

有能力获得海量的、高质量的数据,被看做未来大模型公司的核心竞争力之一,也是各大巨头AI军备竞赛的必争之地。数据也被看作决定未来发展的关键生产要素。根据《数字中国发展报告(2022年)》统计,数据要素所能释放的数字经济潜力将无比巨大,我国2022年数据产量达到8.1ZB,全球占比10.5%,位居世界排名第二,数字经济发展处于领先优势。

然而,数据作为全新的生产要素,也带来一系列亟待解决的问题:究竟如何理解数据?如何对数据确权?如何挖掘数据的价值?是否真的能交易流通?数据是否能真的作为一种资产,计入到企业的财务报表中?安全性如何管理?为此,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,请她深度解答了相关问题。

以下为对话实录:

腾讯科技:普通人可能会关心,大模型训练的数据从哪里来?有没有用我的个人数据,这些数据是否会有确权的问题?

曾雪云教授:大模型计算的这些数据是个人数据。个人数据相对于企业数据来说,它有一个权属问题。原则上,我的数据我做主。比如说社交软件上生成的数据,原则上来说,社交软件所属的公司不能使用我的个人数据,虽然这些公司已经通过默认授权的方式,实际上控制了这些数据,但具体数据怎么用是要受《个人信息保护法》来规范的。

那如果要用于大模型计算,该怎么来使用呢?在技术上需要进行隐名化处理,在经营上还需要有一个市场主体,就是要赋予某某公司一种合法的去经营这些数据的权利,换句话说,给这些数据找到一个市场化主体。当这个市场化主体拿到这个数据之后,需要投入人力、时间、智力、资本,去生产数据,这些我们都可以称为劳动投入。经过劳动投入之后,就把属于个人的数据信息衍生为公司的一种再生数据,或者叫次生数据。然后,次生数据生成过程性数据,再到数据的产品、数据的服务。这个时候,就把原生的以个人为数据拥有者的个体数据变为企业的数据产品和数据服务。这是一个产品化的过程。

腾讯科技:是不是可以这样理解,互联网公司通过授权获取个人的数据,经过这些公司的流程化处理之后,就可以变成这个公司的某种数据资产?

曾雪云教授:也可以这样理解,我们个人在互联网上生成大量的数据,就好像自然界的各种自然资源。比如说,土地上可以生长出很多的花草树木,可以有很多资源在生长。这种资源是一种公共资源,是可以去开发和利用的,但不可以直接买卖。利用和加工之后生成的是企业的资产,这是允许的,我们也应该鼓励这样来开发数据生产要素。

腾讯科技:从个体角度出发,如何保护我们的个人数据,让它们按照我们想要的方式去流动?

曾雪云教授:人工智能的时代,人们的隐私越来越难以被保护了。因为人们的一切行为都在被记录,地理位置的移动、生活、工作、饮食、起居,都在被记录。一旦被记录下来,这些原本属于我们个人的信息,就不再能为行为人所控制。所以,这个时候隐私泄露的风险很大,数据保护的任务也很重,数据保护的难度也很大。

人们怎么样来维护自己的数据权益?其实各个国家也有一些商业化的办法。第一种,像日本,用的数据银行,就是每个人可以像在银行存款一样,把数据存放在数据银行。数据银行,是一个数据的保管者,它本身也可以作为一个数据价值的原始开发者,然后个人也能获得一定的收益。这个就说,它能让一部分愿意一定限度下公开和利用自己数据的这一部分人,可以有一种商业模式,以一种自选择的方式来解决数据保护问题。也就是,构造合法的数据流通、合法的数据的开发和利用模式,这是一块。

另外一部分,就是说我个人不愿意,那么就不授权给数据占有人。不授权的情况下,国家就要加强数据保护。如果谁要非法去开发这部分数据,那就要进行惩戒,要进行法律监管,可以用区块链技术跟踪此类行为。比如说,我们的数据有没有被泄露,被泄露到哪了,去进行数据流转的跟踪。还可以进行数据血缘关系的跟踪和分析,现在已经有数据血缘技术。大概就是说,数据它从哪里来,到哪里去,数据血缘分析实际上是一种数据的相关分析,以及数据的溯源,用血缘这个词就是非常形象地讲述了数据的来龙去脉。一切都在被记录,所以记录别人的这种数据和技术,它也能被记录下来,也能被公开下来,也能被穿透。

我国 《民法典》在人格权篇中对个人信息保护做出了专门规定。《民法典》第127条则将数据与网络虚拟财产并列,凸显了数据的财产属性。在地方性立法中,《上海市数据条例》第12条的规定直接体现了“人财两分”的权利配置模式。该条规定:“本市依法保护自然人对其个人信息享有的人格权益。”“本市依法保护自然人、法人和非法人组织在使用、加工等数据处理活动中形成的法定或者约定的财产权益,以及在数字经济发展中有关数据创新活动取得的合法财产权益。”

2021年8月20日,十三届全国人大常委会第三十次会议表决通过《中华人民共和国个人信息保护法》,自2021年11月1日起施行。具体内容在网上能查到。《个人信息保护法》中个人信息的司法性质也是人格权益保护,几乎不涉及个人信息的财产权益。

腾讯科技:对大模型训练起到重要作用的高质量数据,究竟指的是哪些数据?

曾雪云教授:数据应该是人类经济、社会、生产、经营、商业,甚至军事活动的全部记录。这样的一个记录,它生产于各个行业、各个领域、各个方面。就原生数据而言,它有高质量、也有低质量。比如说,上市公司的财务报表,财务数据,就是一种高质量的数据,而且是一种结构化的数据。因为这种财务报表和财务信息都是经过社会审计,经过注册会计师审计的,有证监会来监管信息披露,所以是高质量数据。再比如说,中国知网里的论文数据也是高质量数据。但是,互联网上生成的这些数据,它是非结构化的数据,也是非标准化的数据。这样的数据就是一种原始的、比较杂乱的、没有规范的数据,它就需要在计算前进行颗粒度上的清洗,所以高质量数据通常都有从非结构化到结构化这样的一个加工过程。

腾讯科技:既然高质量数据可以被不断生产,为什么会有“高质量的数据快用完了”这种说法?

曾雪云教授:我认为是对数据的生产加工的能力跟不上人们对于数据的需求,做数据生产加工的整个供应链价值链这一端,它的生产力还比较弱。因为我们知道数据是在不断爆发,但是高质量数据快用完了,它只是说从数据到高质量数据的过程当中,我们缺乏一种生产力,一种整合的能力。这个时候就需要有数据商,我们现在很多数据商,只是在做数据的直接利用,但对于数据的生产和加工,对于如何生产高质量数据,这一块的能力或者说商业模式的设计还是很不够的。

其实 OpenAI 的 GPT-4,就采用了大量前一代模型 GPT-3.5 生产的数据来进行训练。OpenAI的创始人也在近期的采访中说过,“合成数据是解决大模型数据短缺的有效方法。而其中的关键在于,有一整套体系来区分 AI 生成的数据中,哪些可用,哪些不可用,并不断根据训练后模型的效果进行反馈”。这家公司并不只是能融到钱,能支配很多的算力这么简单,对于数据的产品技术能力,也是这家公司的核心竞争力之一。

腾讯科技:为了提高高质量的数据生产力,产业设计需要有哪些必要的环节?

曾雪云教授:关于这个问题,首先要理解数据是什么?我们有哪些数据?以及要用这些数据去做什么?也就是说,生产高质量的数据,它不是有生产能力,就能有高质量数据,也不是有生产的意愿,就有高质量数据。它一定需要从源头来理解数据,要用数据去解决社会上的什么问题?市场对数据的需求端在哪里。然后,从原始数据到需求端,中间应该怎么去生产?这一系列的问题需要有产业设计在里面,目前整体的思考都是不够的。

腾讯科技:产业不成熟是一方面,是不是也意味着这个产业还是一片蓝海?

曾雪云教授:非常早期的一片蓝海。更早期存在一些违规的直接买卖数据的情况,后来国家立法不再能够直接买卖数据本身,不再去交易原始数据。数据是不能做原始交易的,应该是对自己的生产投入的结果去做交易,而不是说占有了什么数据,我直接去卖数据,这是不可以的。

2022年(12月份)出台了《数据二十条》,《数据二十条》其中就提出数据的权属分置要求,将数据的所有权、经营权、受益权进行多权属的分置,其中提到数据要进行这个分层分类管理。这是数据治理的顶层设计,是一个整体蓝图。也可以说,是未来数据产业规范化发展的开端。这个时候,人们意识到数据不是一个整体,而且要去理解数据究竟有哪些权益,这也是对原来以法学为基础的研究推进到以经济学为基础的研究。要去建立数据市场,市场一定是经济行为。这种经济行为,要用很多经济学的工具、经济学的理论,所以现在从对数据科学的研究、国家对数据的治理,到学术界对数据的研究、产业界对数据的利用都是一个蓝海,都是一个刚开始的状态。

腾讯科技:这样看来,数据可以作为企业的某种资产存在,数据属于哪类资产?

曾雪云教授:数据分类是学术界非常热门的话题。多数情况下,人们会觉得数据是无形的,看不见、摸不着,叫无形资产。但实际上从国际电联的分类来看,数据它更接近于存货资产,因为数据也涉及到生产、加工这样一个过程。而且数据本身它是一种电子化的有形资产,为什么它是电子化有形资产?数据它会占用物理空间,很多数据本身也有实物形态,它是在网络端的一个实物形态。图片,能看得见这张电子图片;声音,能听到这个声音,人像,能看到这个人像,所以数据它是数字化的有形资产。

我们知道,数据资产是一种非常特殊的资产类别。有的会提出来说,数据可以类比于无形自然做摊销,或者类比于固定资产做折旧。其实,要先对数据去做分层分类,看这些数据属于哪一类。有的类型的数据,它还具有可生长性可融合性。比如说,中国联通 所有的通话数据,如果能和个人的银行存款投资数据融合在一起,就能生成关于这种人从投融资到他的通信以及到职业的更多信息的画像。这个时候,就有数据与数据之间融合产生数据价值的累加效应,这个时候数据就具有可融合性和可生长性。还有一部分数据,确实具有时效性,随着时间的推移,它的价值就衰减了。所以,我们还是要更具体地来分析数据本身的特性,才能知道它的核算价值,并且数据价值的核算,具有更多的可变性和不确定性,它不像固定资产,固定资产形成时候的资产价值是确定的,随着时间的推移,价值是逐渐递减的,但数据不一定随时间递减,数据有更加复杂的资产形态。

腾讯科技:未来数据是不是AI企业的核心竞争力之一?数据资产是否有可能量化体现在企业的估值中?

曾雪云教授:对于一家人工智能的企业来说,数据就是它最核心的关键竞争力所在。对于一家AI公司来说,产品的体验决定了这个企业的商业价值,而数据的能力,决定了产品的体验。对于一个国家来说,数据是未来的关键竞争力,也是未来的黄金,就像石油是工业时代的黄金,数据就是互联网经济时代的黄金。

但是目前,世界各国其实在数据治理方面遇到困难,还没有一个国家率先取得突破,怎么解决数据安全、数据治理与数据开发利用三者之间的平衡。

在这方面,中国已经敏锐地意识到了数据的重要性。各个国家也都意识到数据是一种新的生产力,但数据怎么利用,它需要有市场主体,需要有智能科技,还需要有国家规制,所以,它不是一个简单可以解决的问题,它是个系统复杂性问题。

中国的国家治理是从中央到地方的相对集中式的安排,所以我们天然就有优势,可以去整合全国范围内的大数据,但这个优势现在还没有体现出来,是在于数据的估值和估价存在问题,还有数据进入会计报表核算的问题没有解决。这个问题,在全世界范围内也都没有很好的解决办法。

如果说数据能从表外资产进入到表内资产,那么数据治理的价值核算以及数据价值的管理就都能解决好,数据的交易就有了一个客观的基础。现在我们的企业数据,基本上是表外资产,没有进行估值,也没有在资产负债表上做计量和报告,因此并不清楚企业究竟掌握了多少的数据量,以至于数据的经济价值是多少也很难做统计。数据没有进入表内,那么它的交易也就缺乏一个合理基础,所以数据入表是一个关键性问题。对于数据量的统计、数据价格的核算、对于数据交易的计价,从量的统计到价的核算再到交易的基础,它需要以数据进入资产负债表、利润表,进入财务报表的核算为底层设施。这个底层设施还没有解决好。

腾讯科技:数据产权立法,国际目前已经有哪些先例?

曾雪云教授:研究数据产权立法。现在全球各主要国家针对数据保护的法案基本具备,而且日渐清晰地定位于推进数据物权中的人格权保护法案,但是针对数据利用的法案法规基本缺失,日本在这方面有一定先进性,我国相当重视推进数据要素流通,但并无法规的支持、规范、引导,而主要依靠行政性文件,这依然存在很大的立法缺失。当前迫切需要在加快数据产权的规制与数据要素流通方面,创新性地引领全球法规建设的新方向。国内外情况如下:

国际方面:欧盟2016年通过的《一般数据保护条例》(GDPR),是目前最为全面、影响力最大的数据隐私法。《条例》朝着强化数据主体权利、确保对个人数据使用控制的方向、兼顾数据安全和数据自由流通的两个方向发展。GDPR在确认和完善个人的既有权利的基础上,规定了删除权(第17条)和可携带权(第20条)等,以实现数据主体对其个人数据的更有效控制,但条文并没有对个人数据的权属流转及财产权益分配进行明确。

虽然美国较早开始数据权属法律保护的制度和理论探索,但相关规范大多分散于各类法案。各州立法并不相容,但覆盖领域较广,在实际纠纷解决中具备一定的灵活性以鼓励数据利用。比如,2018年出台的《2018年加州消费者隐私法案》和2020年出台的《2020年加州隐私权法》都加大了对数据权利的确定力度,覆盖了访问权、删除权、知情权等消费者人格隐私权利,强化了数据在流转中对数据主体的权益保护,这也从侧面反映出美国对数据经济价值利用的许可。日本在 2017年制定了《数据使用权限合同指引》,指引充分考虑了数据合同对数据创造的贡献、存储和管理的成本负担等因素,规范了数据交易合同以促进数据交易,这是一个大的进步,但仍未有对数据产权的清晰界定。

在欧洲,《欧盟基本权利宪章》及《通用数据保护条例》将个人数据受保护权视为一种由数据主体享有的特殊权利,其中不包含任何财产权利。虽然《通用数据保护条例》等欧盟法令没有明确规定数据控制者享有以数据为客体的财产权利,但其数据财产权益可通过数据库保护、版权法保护、商业秘密保护、合同法保护、竞争法保护等方式得到保护。此外,欧盟委员会发布的文件《建立欧洲数据经济》致力于引入“数据生产者权利”,赋予数据控制者对非个人数据及匿名化个人数据的对世性财产权利,使其有权对此等数据进行排他利用,其中包括许可他人利用此等数据的权利。在美国,虽然法学界有学者认为应当赋予个人对个人信息的财产权利,但是法院对于此等财产权利通常不予承认。而在部分情形中,美国法院认为企业对其持有的数据享有财产权益。国内外关于数据财产的法治经验表明,“人财两分”应当成为构建我国数据财产权制度的核心理论主张。



Tags:AI大模型训练   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI大模型训练背后,一条数据产业链正在形成
文章转载来源:腾讯科技作者:腾讯科技 郭晓静图片来源:由无界 AI生成“大力出奇迹”、“暴力美学”,这两个词一直伴随ChatGPT的讨论出现。而“大力”和“暴力”,除了“巨大的算力...【详细内容】
2023-08-09  Search: AI大模型训练  点击:(274)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
站内头条