AI要被卡脖子了？训练大模型的数据或在2026年耗尽

时间：2023-08-28 11:02:43 来源：腾讯科技作者：

就在不久前，分析师们还公开猜测，人工智能（AI）是否会导致面向创意人士的软件开发商Adobe衰落。像Dall-E 2和MidTrik这样的新工具，可以根据提示文本生成相应的图片，它们似乎让Adobe的图像编辑功能变得多余。就在今年4月，金融新闻网站Seeking Alpha还发表了题为《人工智能会是Adobe杀手吗?》的文章。

但在现实中，事实距离分析师们的假设尚远。Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件，名为Firefly。该公司高管达纳·拉奥(Dana Rao)表示，自3月份发布以来，Firefly已被用于创建超过10亿张图像。通过避免像竞争对手那样在互联网上挖掘图像，Adobe避开了目前困扰着整个行业的、日益加深的版权纠纷。自Firefly推出以来，Adobe股价已经上涨了36%。

一场数据争夺战正在拉开序幕

Adobe干翻所谓“末日杀手”的胜利表明，在快速发展的人工智能工具市场上争夺主导地位具有更广泛的意义。为最新一波所谓的“生成式人工智能”提供动力的超大模型依赖于海量的数据。此前，模型构建者多数时候从互联网抓取数据（通常是未经许可的）。现在，他们正在寻找新的数据来源来维持这种疯狂的训练模式。与此同时，拥有大量新式数据的公司正在权衡如何最好地从中获利。一场数据争夺战正在拉开序幕。

人工智能模型的两个基本要素就是数据集和处理能力，系统在数据集上接受训练，模型通过处理能力检测这些数据集内外部之间的关系。在某种程度上，这两大基本要素可以相互替代：一个模型可以通过吸收更多数据或增加更多处理能力加以改进。然而，在专业人工智能芯片短缺的情况下，后者正变得越来越困难，这导致模型构建者加倍专注于寻找数据。

研究机构Epoch AI认为，对数据的需求将会急剧增加，以至于可用于训练的高质量文本可能会在2026年耗尽。据悉，谷歌和Meta这两家科技巨头的最新人工智能模型已经接受了超过1万亿个单词的训练。相比之下，在线百科全书Wikipedia上的英语单词总数约为40亿个。

重要的不仅仅是数据集的大小。数据越好，利用其进行训练的模型表现也会越好。数据初创公司Scale AI的拉塞尔·卡普兰(Russell Kaplan)指出，基于文本的模型的理想训练对象是篇幅够长、文笔良好、事实准确的作品。输入这些信息的模型更有可能产生类似的高质量输出。

同样，当被要求一步一步地解释它们的工作时，人工智能聊天机器人会给出更好的答案，这也增加了对教科书等资源的需求。专用的信息集也变得更有价值，因为它们允许对模型进行“微调”，以适应更小众的应用。微软在2018年以75亿美元收购了软件代码存储库Github，并利用其开发了一种编写代码的人工智能工具。

数据版权官司激增，AI公司忙着签授权协议

随着对数据需求的增长，获取数据缺变得越来越棘手，内容创作者现在要求对被人工智能模型吸收的材料给与补偿。在美国，已经有许多针对模型构建者发起的侵犯版权案件。包括喜剧演员莎拉·西尔弗曼(Sarah Silverman)在内的一群作家，正在起诉人工智能聊天机器人ChatGPT开发商OpenAI和Facebook母公司Meta。此外，一群艺术家也同样起诉了Stability AI和Midjourney，这两家公司致力于开发文本转图像的工具。

所有这一切导致的结果是，随着人工智能公司竞相获取数据源，出现了一连串的交易。今年7月，OpenAI与美联社签署了一项协议，以获取该机构的新闻档案。最近，该公司还扩大了与图片库提供商Shutterstock的协议，Meta也与后者达成了协议。

8月初有报道称，谷歌正在与唱片公司环球音乐(Universal Music)进行谈判，希望后者授权艺术家的声音以用于帮助开发歌曲创作人工智能工具。资产管理公司富达(Fidelity)表示，许多科技公司曾与该公司接洽，要求获取其财务数据。有传言称，人工智能实验室正在接洽英国公共广播公司（BBC），以获取其图像和电影档案。另一个受关注的目标是JSTOR，这是一个学术期刊的数字图书馆。

这些信息持有者正在利用他们更大的议价能力。论坛Reddit和备受程序员欢迎的问答网站Stack Overflow都提高了访问其数据的成本。这两个网站都特别有价值，因为用户会给喜欢的答案“点赞”，帮助模型知道哪些是最相关的内容。社交媒体网站X(前身为推特)已经采取措施，限制机器人抓取该网站信息的能力，现在任何想要访问其数据的人都要付费。X老板埃隆·马斯克(Elon Musk)正计划利用这些数据建立自己的人工智能业务。

因此，模型构建者正在努力提高他们已经拥有的数据的质量。许多人工智能实验室雇佣大量的数据注释者来执行标记图像和评级答案等任务。其中一些工作很复杂，甚至需要招聘拥有生命科学专业的硕士或博士求职者。但其中大部分工作都很普通，而且正在外包给肯尼亚等国的廉价劳动力。

人工智能公司也通过用户与他们工具的互动来收集数据。其中，许多工具都有某种形式的反馈机制，由用户指出哪些输出是有用的。Firefly的文本转图像生成器允许用户从四个选项中做出选择。谷歌的聊天机器人巴德(Bard)同样提供了三个答案。

当ChatGPT回复查询时，用户可以给它竖起大拇指点赞。这些信息可以作为输入反馈到底层模型中，形成创业公司Contextual AI联合创始人杜威·基拉(Douwe Kiela)所说的“数据飞轮”。他补充说，衡量聊天机器人回答质量的一个更强的信号是，用户是否复制文本并将其粘贴到其他地方。分析这些信息有助于谷歌迅速改进其翻译工具。

开拓新领域，企业客户内部数据成香饽饽

然而，有一个数据来源在很大程度上仍未被开发，即存在于科技公司企业客户内部的信息。许多企业往往在不知不觉中拥有大量有用的数据，从呼叫中心记录到客户支出记录等。这些信息特别有价值，因为它可以帮助微调特定商业目的模型，比如帮助呼叫中心的工作人员回答客户的问题，或者帮助业务分析师找到提振销售的方法。

然而，利用这种丰富的资源并不容易。咨询公司贝恩的分析师罗伊·辛格(Roy Singh)指出，从历史上看，大多数公司很少关注那些将被证明对训练人工智能工具最有用的庞大但非结构化的数据集。这些数据通常分布在多个系统中，隐藏在公司服务器中，而不是在云端。

解锁这些信息将有助于企业定制人工智能工具，以更好地满足他们的特定需求。亚马逊和微软这两家科技巨头现在都提供工具，以帮助其他企业更好地管理非结构化数据集，谷歌也是如此。数据库公司Snowflake的克里斯蒂安·克莱纳曼（Christian Kleinerman）说，随着客户希望“打破数据孤岛”，该领域正在蓬勃发展。

初创公司也正在蜂拥至这个新领域。今年4月，专注于人工智能的数据库公司Weaviate融资5000万美元，估值达到2亿美元。仅仅一周后，其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。本月早些时候，另一家数据库初创公司Neon也获得了4600万美元的融资。显然，对数据的争夺才刚刚开始。（文/金鹿）

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI是万灵药？Meta要把大模型塞进AR眼镜里

寻找下一块“屏幕”，这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网，智能手机让移动互联网无处不在之后，这前后两次造富神话的出现，也让所有人都在期待下...【详细内容】

2024-04-09　　Search: 大模型点击:(2)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个