您当前的位置:首页 > 电脑百科 > 人工智能

ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步

时间:2024-05-14 10:22:47  来源:极客公园  作者:

科幻电影‘Her’的剧情正在成为现实。

作者 | 黎诗韵

5 月 13 日,AI target=_blank class=infotextkey>OpenAI 用一场春季发布会,再次搅动了整个 AI 行业。

在 Sam Altman 缺席的情况下,OpenAI CTO Mira Murati 担纲介绍了新的 ChatGPT 产品 ChatGPT-4o。

短短 26 分钟的发布会,却几乎是科幻电影《Her》的现实演绎。当你打开 ChatGPT,你面对的不再是一个只会帮你生成内容、或者进行僵硬语音聊天的工具——你唤起的将是一个‘无所不能’的语音助手,或者说,一个越来越接近人类的‘物种’。

它长出了‘眼睛’,可以通过摄像头看到你,比如它通过研究员上扬的嘴角判断他的心情、通过他周围的环境背景判断了他正在做什么、甚至给出了造型建议;它能‘看到’你的电脑桌面,直接帮你查看写的代码有什么问题。

它有了更灵敏的‘耳朵’,能听懂的不只是语言,还能听懂研究员过于急促的呼吸声,并引导他慢慢平稳呼吸、放松下来。

OpenAI CTO Mura Murati 宣布推出 ChatGPT-4o | 图片来源:OpenAI

它有了更灵活的‘嘴巴’,对话不再有延时,你能随时打断它、它能随时接住你的话。它的声音能带入感情,比如更冷静一点、更激昂一点、甚至讽刺一点。它还能唱歌。

它也有了更聪明的‘大脑’。它能帮研究员一步步解不等式,还可以做同声翻译、你可以通过它跟不同语种的人们交流。

这些强大的能力背后,源自 OpenAI 推出的新模型 GPT-4o。与现有模型相比,GPT-4o 的最大进步在于,它可以实时对音频、视觉和文本进行推理——换句话说,它让 ChatGPT 实现了真正意义上的多模态交互。

这不仅仅是技术进步的追求,更是应用普及的追求。OpenAI 的使命之一是让 AI 普惠每个人,让用户能顺滑地用上 AI 是至关重要的。在‘模型即应用’的时代,这种交互体验最终还是靠模型能力的提升。OpenAI 称,GPT-4o(‘o’代表‘omni’)是迈向更自然的人机交互的一步。

发布会上,Mira Murati 宣布 ChatGPT-4o 将免费向所有用户开放,而付费和企业用户,可以抢先获得体验。

电影《Her》上映于 2013 年,它讲述了一位人类爱上一位人工智能语音助理的故事。从今天 ChatGPT 呈现的能力来看,这样的想象正在加速成为现实。

01

ChatGPT 的惊人进步:

变身人类‘超级助理’,

甚至不需要人类参与

在 OpenAI 的官网上,呈现了 ChatGPT 作为个人语音‘超级助理’的更多惊人应用场景。

首先是面向单个用户,和人一样,它提供的主要是‘情绪价值’与‘认知价值’。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等;它能充当面试官,给人提供面试建议;它还能给一位盲人提供环境观察,给他讲述看到的景色、提醒他过马路的路况。

盲人用户使用 ChatGPT-4o‘观察’整个世界| 图片来源:OpenAI

接着是面向多个用户,它提供的更多是一种‘协同价值’。比如给两个语言不通的人充当翻译,让他们能无障碍沟通;给两个人做‘剪刀石头布’的游戏裁判,先喊口令让游戏开始、之后还能准确判断是哪个人赢了;充当一名‘家教’,帮一位父亲辅导他的孩子做作业;甚至作为一名‘会议第三方’,主持和记录多人会议。

最有意思的还是,不同 ChatGPT 之间的对话。这种无需人类参与的沟通,不仅充满了科幻感,更让人开始想象无需人类协作、而让机器代替人类协作的未来。在一段演示中,一位用户要求一部手机的 ChatGPT 代表自己,向另一部手机的 ChatGPT 申请售后,结果这两个 ChatGPT 毫无阻碍地聊了两分钟,顺利帮这位用户‘换了货’。而 OpenAI 总裁 Greg Brockman 则做了一个调皮的演示,他让两个 ChatGPT 互动并唱了歌。

OpenAI 总裁 Greg Brockman 演示两个 GPT 的互动 |图片来源:OpenAI

一位曾在 10 年前就开始做‘AI 语音助理’的前大厂高管对极客公园表示,他当时就设想过 AI 助理的终极形态应该是‘多模态、无所不能’,但彼时技术并不支持,他认为 ChatGPT 会加速这种设想实现的可能——只是他没想到,这个过程会来得这么快。

他认为,实现 AGI 的一个关键标志是,机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远,但当两个 ChatGPT 开始互相聊天的时候,这个鸿沟看起来似乎浅了一点点。

02

GPT-4o 多模态大模型

的技术进步、以及安全性

这些惊艳的产品表现,根本上源自于 GPT-4o 多模态大模型的技术进步。后者分为文本、语音、图像三部分,GPT-4o 在这三块都有提升,尤其是后两者。

在文本方面,据 OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本),以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上,GPT-4o 创下了 88.7% 的新高分。

GPT-4o 在文本上的成绩相当优异|图片来源:OpenAI

最关键的,是音频、多语言和视觉上的进步。

在音频方面,过去 ChatGPT 的音频缺陷是需要经过三个独立的模型,从而存在延迟、且无法承载丰富信息。它先由第一个模型将音频转录为文本,再由 GPT-3.5 或 GPT-4 接收文本并输出文本,最后由第三个模型将该文本转换回音频——一方面,它使得音频的传输存在延迟,GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒。另一方面,模型会丢失大量信息,从而无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而 GPT-4o 的解决办法是,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。OpenAI 称这是其突破深度学习界限的最新举措。目前,GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,与人类的响应时间相似。同时在音频 ASR 性能和翻译性能上,GPT-4o 都比 Whisper-v3(OpenAI 的语音识别模型)的性能更优。

M3Exam 基准测试既能用于多语言评估,也可以用于视觉评估。它由多项选择题组成,包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能。

GPT-4o 在视觉理解上同样能力不错 | 图片来源:OpenAI

一位大模型训练者曾对极客公园表示,模型的技术领先性从来不是靠打榜评分,而是靠用户最真实的感受和体验。从这个角度来说,GPT-4o 的技术领先性将很容易见分晓。

OpenAI 表示,GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出。免费用户就可以使用,不过 Plus 付费用户能享受高达 5 倍的消息容量。在未来几周内,OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍、价格降低了一半、速率限制提高了 5 倍。在未来几周内,OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。

一项强大的技术最令外界担忧的,就是它的安全可控性。这也是 OpenAI 最核心的考虑之一。

OpenAI 表示,GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。其还创建了新的安全系统,为语音输出提供防护。为了保证更好的安全性,OpenAI 表示在接下来的几周和几个月里,将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

03

OpenAI 从没让外界失望,

再次引领科技圈的未来

作为这波 AI 浪潮的开启者、引领者,OpenAI 的每一次发布和更新,都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向。

在这次发布会之前,外界对 OpenAI 颇多谣传、也包括质疑。一周前,外媒报道此次 OpenAI 要发布的是一款搜索引擎——在一年最重要的新闻发布时刻,这家公司没有推出 GPT-5,这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品,这家公司将难以重振用户的增长、满足整个市场对它的期待。

自 2022 年底推出 ChatGPT 后,这家公司的用户量经历了大起大落。据 Similarweb 估计,其全球访问量在 2023 年 5 月达到 18 亿次的峰值。但进入 2023 年下半年后,其用户量则有所下降,至今仍未追平去年 5 月的全球访问量峰值记录。

自 2022 年 11 月以来,ChatGPT 在全球和美国的流量增长情况|图片来源:Similarweb

这次发布会,直接关系着其用户量的增长情况。

外界对搜索引擎还是颇为关注的,Similarweb 表示这个消息当天让 ChatGPT 流量大涨。不过,在发布会前两天,OpenAI CEO Sam Altman 才对外澄清,此次既不会发 GPT-5、也不会发搜索引擎,‘但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说感觉就像魔法一样。’他把这件事描述得更小了。

或许,人们是在一种低期待中观看这次 OpenAI 的发布会。但最终,他们收获到的是一次强烈的震撼。这或许正是 OpenAI 想要的反差效果。

无论是最初的 GPT-3.5,还是去年这个时候的 GPT-4,还是去年底的 GPTs,又或者是今年年初的 Sora——OpenAI 再一次证明,它不会让世人失望。尽管 google、Claude、Character AI、Perplexity 等竞争对手正攫走更多新用户、以及资本的青睐,但 OpenAI 依然证明自己有能力引领着科技创新的‘高地’。

ChatGPT 和其他聊天机器人的访问量对比|图片来源:Similarweb

在此次 OpenAI 推出基于 GPT-4o 的‘超级智能助理’之后,这似乎也将成为接下来各科技大厂争先追赶的方向。

据外媒报道,近期谷歌一直在测试使用人工智能打电话。传闻,它将推出一款名为‘Pixie’的多模态个人助理,作为‘Google Assistant’的替代品。它可以通过摄像头查看物体,并执行人类指令。这在明天的 Google I/O 大会上就会见分晓。

而近日,外媒亦报道,苹果即将与 OpenAI 达成协议——在 6 月份苹果举办的年度全球开发者大会上,苹果或将在 IOS 18 中引入由 ChatGPT 提供支持的‘聊天机器人’,这或将对苹果的个人语音助理 Siri 带来颠覆性影响。

难以想象,仅仅一年半的时间,OpenAI 就将技术推到了今天这个地步、让‘超级助理’的想象这么快发生在我们眼前。然而,这也只是 OpenAI 释放的技术实力的一角。毕竟,我们今天谈到的仅仅是 GPT-4 的更新,还没有说到 GPT-5。OpenAI 到底会给我们带来多少震撼、以及随之会产生多少忧虑,都是未知的问题。

如果站在科技的未来隧道往回看,今天 GPT-4o‘超级语音助理’的诞生,或许会成为科技史上一个标志性的时刻。但或许又如同 OpenAI 首席运营官 Brad Lightcap 几天前所说,‘在接下来的 12 个月里,我们应该会觉得今天使用的(AI)系统糟糕得可笑。’



Tags:ChatGPT   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步
科幻电影‘Her’的剧情正在成为现实。作者 | 黎诗韵5 月 13 日,OpenAI 用一场春季发布会,再次搅动了整个 AI 行业。在 Sam Altman 缺席的情况下,OpenAI CTO Mira Mur...【详细内容】
2024-05-14  Search: ChatGPT  点击:(0)  评论:(0)  加入收藏
OpenAI发布会回顾:最新旗舰模型免费用 ChatGPT进入实时互动纪元
财联社5月14日讯(编辑 史正丞)北京时间周二凌晨1点,自年初“文生视频模型” Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官Mira Murati向外界展现了多项...【详细内容】
2024-05-14  Search: ChatGPT  点击:(0)  评论:(0)  加入收藏
OpenAI宣布下周一直播演示ChatGPT和GPT-4更新 但不会有搜索引擎
【TechWeb】5月11日消息,据外媒报道,在人工智能领域走在行业前列的OpenAI,已在官网宣布,他们将在太平洋时间5月13日上午10点,也就是北京时间5月14日凌晨1点,进行网络直播,演示部分C...【详细内容】
2024-05-13  Search: ChatGPT  点击:(6)  评论:(0)  加入收藏
微软推出iPhone能跑的ChatGPT级模型,性能超Llama-3
Llama 3发布刚几天,微软就出手截胡了?今天发布的Phi-3系列小模型技术报告,引起AI圈热议。其中仅3.8B参数的Phi-3-mini在多项基准测试中超过了Llama 3 8B。为了方便开源社区使用...【详细内容】
2024-04-24  Search: ChatGPT  点击:(14)  评论:(0)  加入收藏
ChatGPT 应用商店?可能是一个万能应用程序!
OpenAI 在去年 11 月召开了一次开发者大会,首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示,它将很快推出一个市场,开发人员和非技术人员...【详细内容】
2024-04-12  Search: ChatGPT  点击:(22)  评论:(0)  加入收藏
OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型
IT之家 4 月 12 日消息,OpenAI 今日宣布,新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比,新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】
2024-04-12  Search: ChatGPT  点击:(26)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02  Search: ChatGPT  点击:(35)  评论:(0)  加入收藏
无需注册!OpenAI宣布放开ChatGPT使用限制
工智能初创公司OpenAI宣布,即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道:“让ChatGPT等工具广泛可用,让人们能够体验到人工智能的好处,这是我们使命的...【详细内容】
2024-04-02  Search: ChatGPT  点击:(18)  评论:(0)  加入收藏
ChatGPT 突然放开了账户限制,面向所有人开放
大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布:将面向所有人开放,无论你有没有注册账户。从今天开始,访问 Chat.openai.com 将不再要求用户登录,用户将直接进入与 C...【详细内容】
2024-04-02  Search: ChatGPT  点击:(12)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02  Search: ChatGPT  点击:(17)  评论:(0)  加入收藏
▌简易百科推荐
ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步
科幻电影‘Her’的剧情正在成为现实。作者 | 黎诗韵5 月 13 日,OpenAI 用一场春季发布会,再次搅动了整个 AI 行业。在 Sam Altman 缺席的情况下,OpenAI CTO Mira Mur...【详细内容】
2024-05-14    极客公园  Tags:ChatGPT   点击:(0)  评论:(0)  加入收藏
“AI+”金融的应用与边际
来源:北京商报金融是“AI+”的最理想应用场景,而AI是普惠金融的核心驱动力(3.750, 0.00, 0.00%)之一。4月29日,在2024中关村(4.340, 0.00, 0.00%)论坛年会——金融科...【详细内容】
2024-04-30    北京商报  Tags:AI+   点击:(21)  评论:(0)  加入收藏
深入理解并掌握 Spring AI 与 Open AI 的使用方法
Spring AI,作为行业领导者,通过其强大、灵活的API和先进的功能,为各种行业提供了颠覆性的解决方案。在本专题中,我们将深入探讨Spring AI在各领域的应用示例。每个案例都将展示...【详细内容】
2024-04-29   路条编程  微信公众号  Tags: Spring AI   点击:(9)  评论:(0)  加入收藏
全面走向“人工智能+” 国内首个汽车大模型标准发布
中国信息通信研究院今天(28日)发布了国内首个汽车大模型标准。标准主要涵盖三个能力域,其中场景丰富度侧重评估汽车大模型对智能座舱和自动驾驶等细分场景的支持情况,能力支持度...【详细内容】
2024-04-28    央视网  Tags:大模型   点击:(30)  评论:(0)  加入收藏
开源还是闭源?哪个才是大模型的发展之路?
2023年7月,Meta发布了其首款面向市场的开源大模型Llama 2,免费提供给研究和商业开发者使用。自此,闭源与开源两种技术路线的交锋正式拉开序幕。 时至今日,围绕闭源与开源...【详细内容】
2024-04-25    比特网  Tags:大模型   点击:(14)  评论:(0)  加入收藏
抖音追不上Sora
来源:字母榜在AI文生视频这条热门赛道,抖音旗下的剪映,正在被OpenAI的Sora越甩越远。近日,美国软件巨头Adobe宣布,将在知名视频编辑软件Premiere Pro的新版本添加多款文生视频AI...【详细内容】
2024-04-24  字母榜    Tags:Sora   点击:(22)  评论:(0)  加入收藏
融汇11款AI工具构建完美应用
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 如您所见,人工智能(AI)应用在近年来得到了长足的发展。从语音助手到软件开发,人工智能已在我们的生...【详细内容】
2024-04-23    51CTO  Tags:AI工具   点击:(20)  评论:(0)  加入收藏
AI“源神”启动!影响多大?
作 者丨冯恋阁 王俊 实习生孔雅萱编 辑丨王俊开源还是闭源?这是属于大模型的时代之问。今年年初,埃隆·马斯克在对OpenAI及其CEO萨姆·奥特曼提起诉讼时,就对OpenA...【详细内容】
2024-04-23    21世纪经济报道  Tags:AI   点击:(15)  评论:(0)  加入收藏
AI“入职”综艺,有多少导演会丢饭碗?
每经记者 杜蔚 温梦华 每经编辑 董兴生 近段时间,AI导演在多国综艺舞台上初露锋芒。韩国电视台在节目《PD消失了》中,引入AI导演“M-Phago”,它可以帮节目选角、撰写文案...【详细内容】
2024-04-23    每日经济新闻  Tags:AI   点击:(14)  评论:(0)  加入收藏
GPT 5发布前夜:美国大选成最大变数!
今年是美国大选年,两党的对决仿佛“昨日再现”,特朗普和拜登再次站在了擂台之上。选举效应从来牵连甚广,而蝴蝶的翅膀已然影响到科技圈。随着总选举的临近,众多科技企业在推出AI...【详细内容】
2024-04-20    视角先锋队  Tags:GPT 5   点击:(17)  评论:(0)  加入收藏
站内最新
站内热门
站内头条