您当前的位置:首页 > 新闻资讯 > 科技

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

时间:2024-01-05 12:15:56  来源:硅星人Pro  作者:

 许多大模型在处理早期数据时展现出的优异表现,实际上是受到了‘任务污染’的影响,回答问题全靠记,而非纯粹基于学习理解能力。

  ChatGPT发布一年多,已经在全世界累积了超过1.8亿用户。而随着越来越多的人们开始频繁使用它,近几个月关于GPT-4在“变笨”、“变懒”的说法不绝于耳。

  大家发现这个昔日大聪明在回答提问时逐渐失去了最初的理解力和准确性,时不时给出“驴唇不对马嘴”的答案,或是干脆摆烂、拒绝回答。

  对于GPT-4降智的原因,用户们有许多自己的猜测。而最近,来自加州大学圣克鲁兹分校的一篇论文,给出了学术界的最新解释。

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  ‘我们发现,在LLM训练数据创建日期之前发布的数据集上,LLM的表现出奇地好于之后的数据集。’       

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  eLLM训练数据收集日期之前和之后发布的数据集,对零样本(蓝色)和少样本(绿色)任务的准确率对比。

  也就是说,大模型在它们之前“见过”的任务上表现优秀,在新任务上则相对拉垮。这更像是一种检索的模拟智能方法,回答问题全靠记,而非纯粹基于学习理解能力。

  因此论文认为,许多大模型在处理早期数据时展现出的优异表现,实际上是受到了‘任务污染’的影响。

  我们知道,大语言模型之所以强大,是因为在各种零样本和少样本任务中表现出色,显示出处理复杂和多样化问题的灵活性。

  而‘任务污染’就是一种对零样本或少样本评估方法的污染,指在预训练数据中已包含了任务训练示例——你以为GPT初次回答就这么得心应手?No!其实它在训练过程中就已经“见过”这些数据了。

  评估的模型与数据集

  由于封闭模型不会公开训练数据,开放模型也仅提供了数据源,爬取网站去获取数据并非易事,所以想简单验证是困难的。

  为了实测任务污染的范围,论文中共评估了12种不同的模型,包括5个GPT-3系列封闭模型和FAIrseq MoE、Bloom、LLaMA等7个开放模型,并列出训练集创建和模型发布日期。

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  在数据集上则划分为两类:2021年之前和2021年之后发布的数据集。以此来对比新老数据集之间的零样本或少样本任务性能差异。

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  四种测量方法

  基于以上样本,研究人员采用了四种方法来衡量大模型的任务污染范围。

  1. 训练数据检查:直接搜索训练数据以找到任务训练示例。

  发现经过微调的Llama模型Alpaca和Vicuna,在训练中加入少量任务示例后,对比原版Llama性能有所提升。

  2. 任务示例提取:从现有模型中提取任务示例。

  具体方法是通过提示词指令,让模型生成训练示例。由于在零样本或少样本评估中,模型本不应该接受任何任务示例训练,所以只要LLM能够根据提示生成训练示例,就是任务污染的证据。

  结果发现,从GPT-3第一代davinci-001到后来的3.5-T,代表可以生成训练示例的红色X越来越多了,证明任务污染越发严重。

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  3. 成员身份推断:仅适用于生成任务,核心是检查模型为输入示例生成的内容是否与原始数据集完全相同。如果一致,就可以认定这个示例是LLM训练数据的成员。

  因为如果在开放式生成任务中出现这种精准匹配,那模型无异于具备了预知能力,能准确复现数据集中的具体措辞,表现可以说是“天秀”了,这就强烈暗示了模型在训练时已经学习过这些内容。

  结果显示在GPT-3系列和最近开源的大模型中,这种生成内容与原始数据完全相同的情况普遍存在,且污染程度随时间呈上升趋势。

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  4. 时间序列分析:对于已知训练数据收集时间的模型,测量其在已知发布日期的数据集上的性能,并使用时间序列证据检查污染的证据。

  通过对所有数据集和LLM进行全球性的时间序列分析,发现对于在LLM发布之前收集的数据集(左侧),无论是零样本还是少样本任务中,击败多数基线的可能性都远远更大。

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  最终结论

  在所有实验过后,论文给出如下关键结论:

  • 由于任务污染,闭源模型在零样本或少样本评估中的性能表现被夸大了,特别是那些经过人类反馈的强化学习(RLHF)或指令微调的模型。由于污染程度仍然未知,我们需要谨慎对待。
  • 在实验中,对于没有展示出污染可能性的分类任务,大模型在零样本和少样本设置里很少显示出相对多数基线在统计学意义上的显著性改进。
  • 随着时间推移,GPT-3系列模型在许多下游任务的零样本或少样本性能上的提升很可能是由于任务污染造成的。
  • 即使是开源的LLM,出于多种原因,检查训练数据的任务污染也可能是困难的。
  • 鼓励公开训练数据集,以便更容易诊断污染问题。

  GPT“变笨”不孤单,所有大模型殊途同归?

  读过论文后,许多网友也悲观地表示:降智没准儿是目前所有大模型的共同命运。

  对于没有持续学习能力的机器学习模型来说,其权重在训练后被冻结,但输入分布却不断漂移。近两亿用户五花八门的新问题日夜不间断,如果模型不能持续适应这种变化,其性能就会逐步退化。

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  就比如基于大模型的编程工具,也会随着编程语言的不断更新而降级。

  而持续重新训练这些模型的成本很高,人们迟早会放弃这种效率低下的方法。就目前的LLM来说,很难构建可以在不严重干扰过去知识的情况下,连续适应新知识的机器学习模型。

  有网友认为:“围绕人工智能的所有炒作大多是基于这样一个假设:人工智能将会越来越好。但按照这些大型语言模型的设计方式,实现通用人工智能几乎是不可能的。在特定场景下的小众用例是这项技术的最佳使用方式。”

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  而持续学习,恰恰是生物神经网络的优势。由于生物网络具有强大的泛化能力,学习不同的任务可以进一步增强系统的性能,从一个任务中获得的知识有助于提升整个学习过程的效率——这种现象也称为元学习。

  “本质上讲,你解决的问题越多,就会变得越好,而大模型虽然每天被数以百万计的问题所触发,它们并不会自动地在这些任务上变得更加出色,因为它们的学习能力被冻结在了某一时刻。”

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

  不过想来一个有些矛盾的现实是,现在的人们越来越依赖于AI生成的内容,用退化中的大模型提供的答案去解决生活中的实际问题。未来大模型爬到的数据,将会越来越多会是它自己创造的东西,而不是来自人脑。

  AI用AI的产出去自我训练,最终结果又会走向何方呢?如果不着手从根本上解决数据污染和持续学习能力的问题,未来的世界会和大模型一起变笨吗?

  本文作者:Jessica,本文来源:硅星人Pro,原文标题:《“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?》



Tags:GPT-4   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: GPT-4  点击:(4)  评论:(0)  加入收藏
微软AI程序员登场,10倍AI工程师真来了?996自主生成代码,性能超GPT-4 30%
新智元报道编辑:桃子 润【新智元导读】全球首个AI程序员Devin诞生之后,让码农纷纷恐慌。没想到,微软同时也整出了一个AI程序员——AutoDev,能够自主生成、执行代码等...【详细内容】
2024-03-18  Search: GPT-4  点击:(15)  评论:(0)  加入收藏
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
3 月 9 日央视的一档节目上,百度创始人、董事长兼 CEO 李彦宏指出,以后不会存在「程序员」这种职业了,因为只要会说话,人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】
2024-03-11  Search: GPT-4  点击:(9)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: GPT-4  点击:(69)  评论:(0)  加入收藏
微软Copilot Pro来了:个人用户也能在Word里用GPT-4,20美元/月
面向个人用户的微软Copilot会员版来了。一个月多交20刀(约合人民币142元),Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样,不用在C...【详细内容】
2024-01-16  Search: GPT-4  点击:(89)  评论:(0)  加入收藏
“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?
 许多大模型在处理早期数据时展现出的优异表现,实际上是受到了‘任务污染’的影响,回答问题全靠记,而非纯粹基于学习理解能力。  ChatGPT发布一年多,已经在全世界...【详细内容】
2024-01-05  Search: GPT-4  点击:(48)  评论:(0)  加入收藏
GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发
新智元报道编辑:Aeneas【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。如今,GPT-4 Vision在语言...【详细内容】
2024-01-03  Search: GPT-4  点击:(53)  评论:(0)  加入收藏
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
量子位 | 公众号 QbitAI谷歌扳回一局!在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GP...【详细内容】
2023-12-22  Search: GPT-4  点击:(117)  评论:(0)  加入收藏
GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大
多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决...【详细内容】
2023-12-18  Search: GPT-4  点击:(58)  评论:(0)  加入收藏
OpenAI 宣布修复GPT-4变懒问题,将在离线评估及AB测试后更新模型
IT之家 12 月 11 日消息,OpenAI 在上周遭到部分用户投诉,许多用户声称,他们在使用 ChatGPT 或 GPT-4 API 时,会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题,OpenA...【详细内容】
2023-12-12  Search: GPT-4  点击:(50)  评论:(0)  加入收藏
▌简易百科推荐
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(6)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(6)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(2)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(4)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02    新智元  Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02    IT之家  Tags:Chrome   点击:(7)  评论:(0)  加入收藏
哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
【新智元导读】OpenAI 机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人 Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。此前,...【详细内容】
2024-04-01    IT之家  Tags:哥伦比亚   点击:(17)  评论:(0)  加入收藏
谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
IT之家 3 月 28 日消息,谷歌近日对其账户登录页面进行了重大更新,现在能够在用户登录谷歌账户时,使用 Windows Hello 作为身份验证方法。使用通行密钥,用户将不再局限于使用密码...【详细内容】
2024-03-29    IT之家  Tags:谷歌服务   点击:(15)  评论:(0)  加入收藏
GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
财联社3月28日讯(编辑 赵昊)今年1月,OpenAI推出了定制聊天机器人商店“GPTs”,以期为业务增添新的动力。但两个多月后,GPTs的吸引力仍然有限,很难达到公司CEO山姆·奥尔特曼...【详细内容】
2024-03-29    财联社  Tags:GPT   点击:(13)  评论:(0)  加入收藏
站内最新
站内热门
相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条