您当前的位置:首页 > 新闻资讯 > 科技

训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」

时间:2024-04-08 09:53:09  来源:新智元  作者:

全网真的无数据可用了!

外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。

前几天,AI target=_blank class=infotextkey>OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算力难题。

然而,数据也是训练下一代强大模型,最重要的一味丹药。

面对穷尽互联网的数据难题,AI初创、互联网大厂真的坐不住了。

GPT-5训练,用上了YouTube视频

不论是下一代GPT-5、还是Gemini、Grok等强大系统的开发,都需要从大量的海洋数据中学习。

可以预见的是,互联网中高质量公共数据已经变得非常稀缺。

与此同时,一些数据所有者,比如Reddit等机构,制定政策阻止AI公司的访问数据。

一些高管和研究人员称,由于对高质量文本数据的需求,可能会在2年内超过供应,这可能会减缓人工智能的发展。

也包括2022年11月,就有MIT等研究人员警告,机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。

论文地址:https://arxiv.org/pdf/2211.04325.pdf

WSJ报道称,这些人工智能公司正在寻找未开发的信息源,并重新思考如何训练先进的AI系统。

知情人士透露,OpenAI已经在讨论如何通过转录YouTube公开视频,来训练下一个模型GPT-5。

为了获取更多真实数据,OpenAI还曾与不同机构合作签署协议,以便双方共享部分内容和技术。

还有一些公司采用AI生成的合成数据,作为训练材料。

不过,这种方法实际上可能会造成严重的故障。

此前,莱斯大学和斯坦福团队的研究发现,将AI生成的内容喂给模型,尤其经过5次迭代后,只会导致性能下降。

研究人员对此给出一种解释,叫做「模型自噬障碍」(MAD)。

论文地址:https://arxiv.org/abs/2307.01850

对于AI合成数据的使用,在这些公司都是秘密进行的。这种解决方案已然被视为一种新的竞争优势。

AI研究Ari Morcos表示,「数据短缺」是一个前沿的研究问题。他在去年创立DatologyAI之前。曾在Meta Platforms和谷歌的DeepMind部门工作。

他的公司建立了改进数据选择的工具,可以帮助公司以更低的成本训练AI模型.

「不过目前还没有成熟的方法可以做到这一点」。

数据稀缺,成为永恒

数据、算力、算法都是训练强大人工智能重要的资源之一。

对于训练ChatGPT、Gemini这样的大模型完全基于互联网上获取的文本数据打造的,包括科学研究、新闻报道和维基百科条目。

这些材料被分成「词块」——单词和单词的一部分,模型利用这些词块来学习如何形成类人的表达方式。

一般来说,AI模型接受训练的数据越多,能力就越强。

OpenAI正是在这种策略上大大投入,才使得ChatGPT名声远扬。

不过一直以来,OpenAI从未透露过关于GPT-4的训练细节。

但研究机构Epoch研究人员Pablo Villalobos估计,GPT-4是在多达12万亿个token上训练的。

他继续表示,基于Chinchilla缩放定律的原理,如果继续遵循这样扩展轨迹,像GPT-5这样的AI系统将需要60万亿-100万亿token的数据。

利用所有可用的高质最语言和图像数据,仍可能会留下10万亿到20万亿,甚至更多的token的缺口,目前尚不清楚如何弥合这一差距。

两年前,Villalobos在论文中写道,到2024年中期,高质量数据供不应求的可能性为50%。到2026年,供不应求的可能概率达到90%。

不过,现在他们变得乐观了一些,并估计这一时间将推迟到2028年。

大多数在线数据对于AI的训练是无用的,因为它们包含了大量的句子片段、污染数据等,或者不能增加模型的知识。

Villalobos估计,只有一小部分互联网对模型训练会有用,可能只有CommonCrawl收集的信息的1/10。

与此同时,社交媒体平台、新闻出版商和其他公司一直在限制AI公司,使用自家平台数据进行人工智能训练,因为担心公平补偿等问题。

而且公众也不愿意交出私人对话数据(比如iMessage上的聊天记录)来帮助训练模型。

然而,小扎最近把META在其平台上获取数据的能力,吹捧为Al研究工作的一大优势。

他对外公开称,Meta可以在其网络(包括Facebook和Instagram)上挖掘数千亿张公开共享的图片和视频,这些图片和视频的总量超过了大多数常用的数据集。

数据选择工具的初创公司DatologyAI使用可一种称为「课程学习」的策略。

在这种策略中,数据以特定的序列被输入到语言模型中,希望人工智能能够在概念之间形成更智能的连接。

在2022年的一篇论文中,Datalogy AI研究人员Morcos和合著者估计,如果数据正确,模型可以用一半的时间取得同样的结果。

这有可能降低训练和运行大型生成式人工智能系统的巨大成本。

不过,到目前为止,其他的研究表明,「课程学习」的方法并不有效。

Morcos表示团队正在调整这一方法,这是深度学习最肮脏的秘密。

OpenAI谷歌要建「数据市场」?

奥特曼曾在去年对外透露,公司正在研究训模型的新方法。

「我认为,我们正处于这些巨型模型时代的末期。我们会用其他方法让它们变得更好」。

知情人士表示,OpenAI还讨论了创建一个「数据市场」。

在这个市场上,OpenAI它可以建立一种方法,来确定每个数据点对最终训练模型的贡献,并向该内容的提供商支付费用。

同样的想法,也在谷歌内部进行了讨论。

目前,研究人员一直努力创建这样一个系统,暂不清楚是否会找到突破口。

据知情人士透露,高管们已经讨论过使用其自动语音识别工具Whisper在互联网上转录高质量的视频和音频示例。

其中一些将通过YouTube公共视频进行,并且部分数据已经用于训练GPT-4。

下一步,合成数据

一些公司也在尝试制作自己的数据。

喂养AI生成的文本,被认为是计算机科学领域的「近亲繁殖」。

这样的模型往往会输出没有意义的内容, 一些研究人员将其称为「模型崩溃」。

OpenAI和Anthropic的研究人员正试图通过创建所谓的更高质量的合成数据来避免这些问题。

在最近的一次采访中,Anthropic的首席科学家JaredKaplan表示,某些类型的合成数据可能会有所帮助。同时,OpenAI也在探索合成数据的可能性。

许多研究数据问题的人都乐观认为,「数据短缺」解决方案终会出现。



Tags:GPT-5   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08  Search: GPT-5  点击:(0)  评论:(0)  加入收藏
ChatGPT之父Altman两小时对谈,首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么
Altman做客油管博主Lex Fridman科技博客 ,被追问了一个又一个辛辣的问题。长达两个小时的对谈,奥特曼从OpenAI宫斗、马斯克诉讼、Sora,一直聊到AGI与外星文明!本文重点梳理了长...【详细内容】
2024-03-20  Search: GPT-5  点击:(8)  评论:(0)  加入收藏
GPT-5、开源、更强的ChatGPT!OpenAI公布2024年计划
当地时间12月24日,OpenAI联合创始人兼首席执行官Sam Altman在社交平台公布,AGI(稍晚一些)、GPT-5、更好的语音模型、更高的费率限制;更好的GPTs;更好的推理能力;对唤醒/行为程度的...【详细内容】
2023-12-25  Search: GPT-5  点击:(65)  评论:(0)  加入收藏
《自然》杂志预测明年值得期待的科学大事:嫦娥六号、GPT-5 在列
IT之家 12 月 22 日消息,《自然》杂志官网日前对 2024 年有望发生的科技大事进行汇总和展望,涵盖人工智能、天文、生物医学、物理和信息技术等诸方面。IT之家汇总如下:OpenAI...【详细内容】
2023-12-22  Search: GPT-5  点击:(55)  评论:(0)  加入收藏
比尔盖茨:GPT-5不会比GPT-4好多少,生成式AI已达到极限
衡宇 梦晨 发自 凹非寺量子位 | 公众号 QbitAI比尔·盖茨一句爆料,成为机器学习社区热议焦点:“GPT-5不会比GPT-4好多少。”虽然他已不再正式参与微软的日常运营,但仍在...【详细内容】
2023-11-27  Search: GPT-5  点击:(196)  评论:(0)  加入收藏
统一图像和文字生成的MiniGPT-5:模型能续写,还会自动配图了
OpenAI 的 GPT-5 大模型似乎还遥遥无期,但已经有研究者率先推出了创新视觉与语言交叉生成的模型 MiniGPT-5。这对于生成具有连贯文本描述的图像具有重要意义。大模型正在实现...【详细内容】
2023-10-10  Search: GPT-5  点击:(372)  评论:(0)  加入收藏
GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!
新智元报道 【新智元导读】多模态大模型的战场上,已有人闻到风声。据外媒爆料,OpenAI的全新多模态模型Gobi似乎已在筹备中。谷歌和OpenAI的这场对决,似乎已是箭在弦上了。随着...【详细内容】
2023-09-19  Search: GPT-5  点击:(82)  评论:(0)  加入收藏
GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍
新智元报道 【新智元导读】GPT-5仍在秘密训练中!DeepMind联合创始人在近日采访中透露,未来3年,Inflection模型要比现在的GPT-4大1000倍。近来,DeepMind联合创始人Mustafa Suley...【详细内容】
2023-09-04  Search: GPT-5  点击:(120)  评论:(0)  加入收藏
OpenAI为何在中国申请注册“GPT-5”商标?
GPT-4发布不足半年,OpenAI开始给GPT-5申请注册商标。近日,欧爱运营有限责任公司(OPENAI OPCO, LLC)在中国申请注册2枚“GPT-5”商标,国际分类包括科学仪器、网站服务,当前商标状态...【详细内容】
2023-08-15  Search: GPT-5  点击:(55)  评论:(0)  加入收藏
GPT-5要来了?AI行业会发生哪些剧变?
一个通用性更强的GPT-5,对人类而言,既是生产力进步的福音,但同时也是行业大地震的前奏。 从chatGPT问世至今,AI就在以月为单位飞速进化着,其模型之多,迭代之快,让很多人不不禁惊觉:...【详细内容】
2023-08-08  Search: GPT-5  点击:(79)  评论:(0)  加入收藏
▌简易百科推荐
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(0)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(7)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(6)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(0)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(3)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(5)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02    新智元  Tags:ChatGPT   点击:(8)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02    IT之家  Tags:Chrome   点击:(7)  评论:(0)  加入收藏
哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
【新智元导读】OpenAI 机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人 Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。此前,...【详细内容】
2024-04-01    IT之家  Tags:哥伦比亚   点击:(17)  评论:(0)  加入收藏
站内最新
栏目相关
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · 国家数据局局长刘烈宏:充分发挥数据要素价值 培育新质生产力
  • · 谷歌Chrome巨变:第三方Cookie的终结将重塑互联网格局
  • · 百度+苹果,“AI手机元年”真的来了?
  • · 百度AI“咬”了一口苹果 大模型商用有戏了?
  • · 大地磁暴或将出现,有何影响?
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条