您当前的位置:首页 > 新闻资讯 > 科技

GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福

时间:2023-03-15 10:15:36  来源:新智元  作者:

新智元报道  

编辑:编辑部

【新智元导读】Open AIGPT-4在万众瞩目中闪亮登场,多模态功能太炸裂,简直要闪瞎人类的双眼。李飞飞高徒、斯坦福博士Jim Fan表示,GPT4凭借如此强大的推理能力,已经可以自己考上斯坦福了!

果然,能打败昨天的Open AI的,只有今天的Open AI。

刚刚,Open AI震撼发布了大型多模态模型GPT-4,支持图像和文本的输入,并生成文本结果。

号称史上最先进的AI系统!

GPT-4不仅有了眼睛可以看懂图片,而且在各大考试包括GRE几乎取得了满分成绩,横扫各种benchmark,性能指标爆棚。

Open AI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。

大家都还记得,2月初时微软和谷歌鏖战三天,2月8日微软发布ChatGPT版必应时,说法是必应‘基于类ChatGPT技术’。

今天,谜底终于解开了——它背后的大模型,就是GPT-4!

图灵奖三巨头之一Geoffrey Hinton对此赞叹不已,‘毛虫吸取了营养之后,就会化茧为蝶。而人类提取了数十亿个理解的金块,GPT-4,就是人类的蝴蝶。’

顺便提一句,ChatGPT Plus用户现在可以先上手了。

考试几乎满分,性能跃迁炸天

在随意谈话中,GPT-3.5和GPT-4之间的区别是很微妙的。只有当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的差异,Open AI在各种基准测试和一些为人类设计的模拟考试上进行了测试。

GPT-4在各种考试中,有几个测试几乎接近了满分:

USABO Semifinal 2020(美国生物奥林匹克竞赛)

GRE Writing

以美国 BAR律师执照统考为例,GPT3.5可以达到 10%水平,GPT4可以达到90%水平。生物奥林匹克竞赛从GPT3.5的31%水平,直接飙升到 99%水平。

此外,Open AI 还在为机器学习模型设计的传统基准上评估了 GPT-4。从实验结果来看,GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

另外,GPT-4在不同语种上的能力表现:中文的准确度大概在 80% 左右,已经要优于GPT-3.5的英文表现了。

许多现有的 ML 基准测试都是用英语编写的。为了初步了解GPT-4其他语言的能力,研究人员使用 Azure翻译将 MMLU 基准(一套涵盖57个主题的14000个多项选择题)翻译成多种语言。

在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:

Open AI表示在内部使用 GPT-4,因此也关注大型语言模型在内容生成、销售和编程等方面的应用效果。另外,内部人员还使用它来帮助人类评估人工智能输出。

对此,李飞飞高徒、英伟达AI科学家Jim Fan点评道:‘GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分,几乎和人类考生没有区别。也就是说,GPT-4可以全靠自己考进斯坦福了。’

(Jim Fan自己就是斯坦福毕业的!)

网友:完了,GPT-4一发布,就不需要我们人类了……

读图做题小case,甚至比网友还懂梗

GPT-4此次升级的亮点,当然就是多模态。

GPT-4不仅能分析汇总图文图标,甚至还能读懂梗图,解释梗在哪里,为什么好笑。从这个意义上说,它甚至能秒杀许多人类。

Open AI称,GPT-4比以往模型都更具创造力和协作性。它可以生成、编辑和迭代用户进行创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。

GPT-4可以将图像作为输入,并生成标题、分类和分析。比如给它一张食材图,问它用这些食材能做什么。

 

另外,GPT-4能够处理超过25,000字的文本,允许用长形式的内容创建、扩展会话、文档搜索和分析。

GPT-4在其先进的推理能力方面超过了ChatGPT。如下:

梗图识别

比如,给它看一张奇怪的梗图,然后问图中搞笑在哪里。

GPT-4拿到之后,会先分析一波图片的内容,然后给出答案。

比如,逐图分析下面这个。

GPT-4立马反应过来:图里的这个‘Lighting充电线’,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。

再给出这么一个梗图,问问GPT-4梗在哪里?

它流利地回答说:这个梗搞笑的地方在于‘图文不符’。

文字明明说是从太空拍摄的地球照片,然而,图里实际上只是一堆排列起来像地图的鸡块。

GPT-4还能看懂漫画:为什么要给神经网络加层数?

它一针见血地点出,这副漫画讽刺了统计学习和神经网络在提高模型性能方法上的差异。

图表分析

格鲁吉亚和西亚的平均每日肉类消费量总和是多少?在给出答案前,请提供循序渐进的推理。

果然,GPT-4清楚地列出了自己的解题步骤——

1. 确定格鲁吉亚的平均每日肉类消费量。

2. 确定西亚的平均每日肉类消费量。

3. 添加步骤1和2中的值。

做物理题

要求GPT-4解出巴黎综合理工的一道物理题,测辐射热计的辐射检测原理。值得注意的是,这还是一道法语题。

GPT-4开始解题:要回答问题 I.1.a,我们需要每个点的温度 T(x),用导电棒的横坐标x表示。

随后解题过程全程高能。

你以为这就是GPT-4能力的全部?

老板Greg Brockman直接上线进行了演示,通过这个视频你可以很直观的感受到 GPT-4的能力。

最惊艳的是,GPT-4对代码的超强的理解能力,帮你生成代码。

Greg直接在纸上画了一个潦草的示意图,拍个照,发给 GPT说,给我按照这个布局写网页代码,就写出来了。

另外,如果运行出错了把错误信息,甚至错误信息截图,扔给GPT-4都能帮你给出相应的提示。

网友直呼:GPT-4发布会,手把手教你怎么取代程序员

顺便提一句,用GPT-4还可以进行报税 。要知道,每年美国人要花好多时间金钱在报税上面。

训练过程

和以前的GPT模型一样,GPT-4基础模型的训练使用的是公开的互联网数据以及Open AI授权的数据,目的是为了预测文档中的下一个词。

这些数据是一个基于互联网的语料库,其中包括对数学问题的正确/错误的解决方案,薄弱/强大的推理,自相矛盾/一致的声明,足以代表了大量的意识形态和想法。

当用户给出提示进行提问时,基础模型可以做出各种各样的反应,然而答案可能与用户的意图相差甚远。

因此,为了使其与用户的意图保持一致,Open AI使用基于人类反馈的强化学习(RLHF)对模型的行为进行了微调。

不过,模型的能力似乎主要来自于预训练过程,RLHF并不能提高考试成绩(如果不主动进行强化,它实际上会降低考试成绩)。

基础模型需要提示工程,才能知道它应该回答问题,所以说,对模型的引导主要来自于训练后的过程。

GPT-4模型的一大重点是建立了一个可预测扩展的深度学习栈。因为对于像GPT-4这样的大型训练,进行广泛的特定模型调整是不可行的。

因此,Open AI团队开发了基础设施和优化,在多种规模下都有可预测的行为。

为了验证这种可扩展性,研究人员提前准确地预测了GPT-4在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为1/10000。

现在,Open AI 可以准确地预测在训练过程中优化的指标损失。例如从计算量为1/1000的模型中推断并成功地预测了HumanEval数据集的一个子集的通过率:

还有些能力仍然难以预测。比如,Inverse Scaling竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect任务是获胜者之一。但是GPT-4 扭转了这一趋势:

Open AI认为能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视。

而现在,Open AI正在投入更多精力开发相关方法,并呼吁业界共同努力。

贡献名单

就在GPT-4发布的同时,Open AI还公开了GPT-4这份组织架构及人员清单。

上下滑动查看全部

北大陈宝权教授称,

再好看的电影,最后的演职员名单也不会有人从头看到尾。Open AI的这台戏连这个也不走寻常路。毫无疑问这将是一份不仅最被人阅读,也被人仔细研究的‘演职员’(贡献者) 名单,而最大的看头,是详细的贡献分类,几乎就是一个粗略的部门设置架构了。

这个很‘大胆’的公开其实意义挺深远的,体现了Open AI背后的核心理念,也一定程度预示了未来进步的走向。



Tags:   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
新增融券再启动暂停键,有头部券商融券池全部收回!融券余额已较年初下降近四成
4月11日,A股市场触底反弹。其中,有一则消息是触发市场反弹的重要原因:据称,多家券商暂停新增融券通券源,拟阶段性临停融券通券源每日新增投放。《每日经济新闻》向某华东头部券商...【详细内容】
2024-04-11  Search: GPT-4  点击:(3)  评论:(0)  加入收藏
16个Redis常见使用场景总结
来源:blog.csdn.net/qq_39938758/article/details/105577370目录 缓存 数据共享分布式 分布式锁 全局ID 计数器 限流 位统计 购物车 用户消息时间线timeline 消息...【详细内容】
2024-04-11  Search: GPT-4  点击:(2)  评论:(0)  加入收藏
一篇文章教会你使用Python中三种简单的函数
所谓函数,就是指:把某些特定功能的代码组成为一个整体,这个整体就叫做函数。一、函数简介所谓函数,就是指:把某些特定功能的代码组成为一个整体,这个整体就叫做函数。二、函数定义...【详细内容】
2024-04-11  Search: GPT-4  点击:(3)  评论:(0)  加入收藏
聊聊Rust里面的数据类型
嘿,朋友们!今天我们来聊聊Rust里面的数据类型。你知道吗?Rust的数据类型可是很重要的哦,它们帮助我们定义变量和函数可以处理什么样的数据。基本数据类型首先,让我们来看看Rust提...【详细内容】
2024-04-11  Search: GPT-4  点击:(2)  评论:(0)  加入收藏
C++中的外部模板及其在当前编译文件中的实例化
在C++中,模板是一种泛型编程的工具,它允许程序员以一种类型无关的方式编写代码。然而,模板的一个常见问题是它们会导致编译时间增加,特别是在大型项目中,当多个源文件包含相同的...【详细内容】
2024-04-11  Search: GPT-4  点击:(2)  评论:(0)  加入收藏
一篇文章带你了解Python的分布式进程接口
在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。一、前言在Thread和Process中,应当优...【详细内容】
2024-04-11  Search: GPT-4  点击:(2)  评论:(0)  加入收藏
网络安全行业的春天何时来?
2023年下半年开始,网络安全从业人员都感受到了网安行业的寒冬,但是其实前奏并不是此刻,只是涉及到大量裁员关乎自身而人人感同身受。从近五年各个网络安全上市公司财报可以发现...【详细内容】
2024-04-11  Search: GPT-4  点击:(2)  评论:(0)  加入收藏
Linux获取Redis 性能指标方法
一、监控指标Ø 性能指标:PerformanceØ 内存指标: MemoryØ 基本活动指标:Basic activityØ 持久性指标: PersistenceØ 错误指标:Error二、监...【详细内容】
2024-04-11  Search: GPT-4  点击:(3)  评论:(0)  加入收藏
Redis与缓存一致性问题
缓存一致性问题是在使用缓存系统,如Redis时经常遇到的问题。当数据在原始数据源(如数据库)中发生变化时,如何确保缓存中的数据与数据源保持一致,是开发者需要关注的关键问题。一...【详细内容】
2024-04-11  Search: GPT-4  点击:(2)  评论:(0)  加入收藏
10余所高校公布强基计划,今年有哪些变化?
今天,中国人民大学、中国农业大学、复旦大学、武汉大学、山东大学、吉林大学、重庆大学、大连理工大学发布了2024年强基计划招生简章。目前,已有10余所高校发布了招生简章。它...【详细内容】
2024-04-11  Search: GPT-4  点击:(2)  评论:(0)  加入收藏
▌简易百科推荐
Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
AI(人工智能)芯片紧缺之际,越来越多科技巨头选择自行研发。当地时间4月10日,社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】
2024-04-11    澎湃新闻  Tags:Meta   点击:(1)  评论:(0)  加入收藏
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11    上海证券报  Tags:英特尔   点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11    工人日报  Tags:AI   点击:(2)  评论:(0)  加入收藏
科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
高质量的数据,越来越值钱。你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张...【详细内容】
2024-04-10    镁客网  Tags:AI模型   点击:(0)  评论:(0)  加入收藏
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(2)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(2)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(8)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(9)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(2)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(5)  评论:(0)  加入收藏
站内最新
栏目相关
  • · Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
  • · 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
  • · AI“复活”亲人成生意,哪些红线待划定?
  • · 科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
  • · 谷歌推出适用于安卓设备的“查找我的设备”网络
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条