您当前的位置:首页 > 新闻资讯 > 科技

OpenAI用26分钟再次震撼世界!新模型GPT-4o语音水平接近人类,科幻正在成真

时间:2024-05-14 10:59:44  来源:搜狐科技  作者:

出品 | 搜狐科技

作者 | 梁昌均

北京时间5月14日凌晨,AI target=_blank class=infotextkey>OpenAI再迎重磅更新,虽然不是AI搜索,也不是GPT-5,而是发布了新旗舰模型GPT-4o,但也足以让业内震撼。

在此次OpenAI 仅有26分钟的春季发布会中,OpenAI首席技术官穆里·穆拉提(Muri Murati)宣布推出名为GPT-4o的新旗舰生成式AI模型,其集文本音频视觉于一身,能力全新升级。

此前不少爆料提到,OpenAI将推出AI搜索,与谷歌搜索竞争,从而增强ChatGPT的功能并开拓新市场,并称这款产品将在谷歌本周的开发者大会前推出。

不过,OpenAI CEO山姆·奥特曼对此否认,其表示,“不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。”

GPT-4o显然就是奥特曼所说的“像魔法一样”的新东西。GPT-4o中的o就是Omni,其是拉丁语词根,意思是全面、全能,奥特曼称其“最好的模型”,并免费开放。

发布新旗舰模型GPT-4o,语音能力接近人类

穆里・穆拉蒂在发布会上提到,GPT-4o 提供与GPT-4同等水平的智能,但进一步改进了GPT-4在文本、视觉以及音频方面的能力。

“GPT-4o是迈向更自然的人机交互的一步——它支持文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。”OpenA在官网上介绍称。

根据传统基准测试,GPT-4o在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上达到新的水平。如在文本方面,GPT-4o在多项测试上超过 GPT-4 Turbo或与其持平,并超过谷歌、Anthropic和Meta目前最强模型。

在音频语音识别和翻译方面,GPT-4o相比OpenAI自己开发的语音模式Whisper-v3均显著提高,尤其是在语音翻译方面树立了新的最先进水平。同时,在视觉理解评估中,GPT-4o也全面超过GPT-4,以及谷歌和Anthropic的最先进模式。

OpenAI 此前的旗舰模型GPT-4,可以处理由图像和文本混合的信息,并能完成从图像中提取文字或描述图像内容等任务,GPT-4o则在此基础上进一步增强了语音处理能力。

据穆里・穆拉蒂介绍,GPT-4o的运行速度将大大提升,最大亮点在于其语音交互模式采用了新技术,从而使得人们可以用麦克风与 ChatGPT 交谈。

OpenAI 介绍到,在GPT-4o之前,使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。其中的语音模式由三个独立模型组成:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。

但这个过程会导致GPT-4丢失大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法生成笑声、音乐或表达情感。为此GPT-4o在跨文本、视觉和音频方面端到端地训练了一个新模型,意味着所有输入和输出都由同一神经网络处理,从而提高了相应速度和推理能力。

“GPT-4o可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。”OpenAI 称,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,不仅可以将语音转换为文本,还具备先进的音频理解能力,理解和标记音频,如能感受到呼吸和情感,并可以控制其声音,比如发出兴奋、舒缓或者机器人的声音。

“OpenAI 一直致力于让用户通过语音与 ChatGPT 进行交流,仿佛与真人对话一般,但之前的版本由于延迟问题,严重影响了对话的沉浸感。GPT-4o 则采用了全新的技术,让聊天机器人对话的响应速度大幅提升。”穆里・穆拉蒂表示。

此外,在文字、图片和语音之外,GPT-4o 还支持打AI视频电话,其可以看到你所有的表情和情绪变化,还可让它来解答各种问题,比如在线解数学题,甚至还可以一起逗狗。

根据发布会上OpenAI使用 GPT-4o进行语音对话的演示,在提问结束后,GPT-4o几乎可以即时回应,并通过文本转语音功能进行朗读,且对话比较自然逼真。

它还可以根据要求调整说话语气或声音,夸张戏剧、冰冷机械都不在话下,比如在它看到写着“我爱ChatGPT”的纸条时,会跟小女生一样害羞地尖叫起来。发布会还展示了GPT-4o唱歌和数学方面的能力,可以指导求解简单的方程。

此外,OpenAI 还发布了桌面版ChatGPT和新的用户界面。“我们认识到这些模型正变得越来越复杂,但我们希望用户与人工智能模型的交互体验能够更加自然、轻松,让用户可以将注意力完全集中在与模型的协作上,而无需在意界面本身。”穆里・穆拉蒂表示。

奥特曼称GPT-4o是最好模型,免费开放使用

此次发布会中,奥特曼并未现身。不过,他在推特发文称“GPT-4o是我们有史以来最好的模型”,并提到了科幻电影《Her》。

这部十年前的电影,讲述了作家西奥多爱上电脑操作系统里女声的故事,这个名为“萨曼莎”的姑娘有着性感嗓音,并且风趣幽默、善解人意。GPT-4o在语音视频上的交互能力,让科幻正在加速走向现实,还有网友称《流浪地球中》的MOSS诞生了。

同时,奥特曼还专门发了一篇博客,称GPT-4o提供新的语音和视频模式,是其用过的最好的计算机界面。“感觉就像电影里的人工智能一样,我仍然有点惊讶它是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。”

他认为,最初的ChatGPT显示了语言界面的可能性,而这个新事物给人的感觉有本质上的不同,它快速、智能、有趣、自然且有帮助。

“对我来说,与计算机交谈从来都不是很自然的事情,现在确实如此。但当我们有添加个性化、访问你的信息、代表你采取行动的能力等时,我确实可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。”奥特曼表示。

值得一提的是,不同于此前OpenAI在推出模型新版本都会对特定付费用户开放,这次则决定GPT-4o向用户免费开放。

从今天开始,GPT-4o的文本和图像功能会在ChatGPT中推出,免费提供GPT-4o,并向Plus 用户提供高达5倍的速率限制,还将在未来几周内在ChatGPT Plus 中推出新版本的语音模式GPT-4o alpha。

此外,开发人员也已经可以在API 中访问GPT-4o。与GPT-4 Turbo 相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍,并计划未来几周内在API中向部分合作伙伴推出对GPT-4o新音频和视频功能的支持。

OpenAI研究员William Fedus表示,“GPT-4o是我们最先进的新前沿模型,也是世界上最好的模型,而且可以在 ChatGPT中免费使用,这对于前沿模型来说是前所未有的。”

奥特曼则在博客中强调称,在创立OpenAI 时,最初构想是要创造人工智能并利用它造福世界,而OpenAI使命的一个关键是将非常强大的AI工具免费(或以优惠的价格)提供给人们。

“我们是一家企业,会有很多收费的东西,这将帮助我们向数十亿人提供免费、出色的人工智能服务。”但奥特曼表示,“我非常自豪我们在ChatGPT中免费提供了世界上最好的模型,没有广告或类似的东西。”

不过,OpenAI表示,GPT-4o是其第一个结合多模式的模型,是突破深度学习界限的最新成果,在朝着实用性的方向发展,但仍然只是浅尝辄止地探索该模型的功能。

同时,GPT-4o虽然通过过滤数据、模型细化、创建新的安全系统、与外部专家沟通等,为语音输出提供技术和交互上的安全防护,但还是会带来新的安全风险,且仍存在一些局限性,如有时会答非所问或给出错误信息等。

OpenAI表示,在接下来的几周和几个月里,将致力于推进技术基础设施、培训可用性以及发布其它模式所需的安全性,并希望得到反馈继续改进模型。



Tags:OpenAI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
OpenAI用26分钟再次震撼世界!新模型GPT-4o语音水平接近人类,科幻正在成真
出品 | 搜狐科技作者 | 梁昌均北京时间5月14日凌晨,OpenAI再迎重磅更新,虽然不是AI搜索,也不是GPT-5,而是发布了新旗舰模型GPT-4o,但也足以让业内震撼。在此次OpenAI 仅有26分钟...【详细内容】
2024-05-14  Search: OpenAI  点击:(0)  评论:(0)  加入收藏
类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定
虽然没有带来备受期待的人工智能(AI)搜索引擎,但OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。美东时间5月13日周一,OpenAI首...【详细内容】
2024-05-14  Search: OpenAI  点击:(1)  评论:(0)  加入收藏
科技界的“AI月”开启!OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验?
  每经记者 蔡鼎 每经编辑 兰素英  全球市场迎来“AI月”。从当地时间5月13日到6月10日,AI领域的开发者和投资者们将迎来一个接一个的重要事件。  从OpenAI直播演示Ch...【详细内容】
2024-05-14  Search: OpenAI  点击:(3)  评论:(0)  加入收藏
ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步
科幻电影‘Her’的剧情正在成为现实。作者 | 黎诗韵5 月 13 日,OpenAI 用一场春季发布会,再次搅动了整个 AI 行业。在 Sam Altman 缺席的情况下,OpenAI CTO Mira Mur...【详细内容】
2024-05-14  Search: OpenAI  点击:(4)  评论:(0)  加入收藏
OpenAI发布会回顾:最新旗舰模型免费用 ChatGPT进入实时互动纪元
财联社5月14日讯(编辑 史正丞)北京时间周二凌晨1点,自年初“文生视频模型” Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官Mira Murati向外界展现了多项...【详细内容】
2024-05-14  Search: OpenAI  点击:(2)  评论:(0)  加入收藏
OpenAI宣布下周一直播演示ChatGPT和GPT-4更新 但不会有搜索引擎
【TechWeb】5月11日消息,据外媒报道,在人工智能领域走在行业前列的OpenAI,已在官网宣布,他们将在太平洋时间5月13日上午10点,也就是北京时间5月14日凌晨1点,进行网络直播,演示部分C...【详细内容】
2024-05-13  Search: OpenAI  点击:(6)  评论:(0)  加入收藏
OpenAI“尝鲜”:收到英伟达全球首部DGX H200 AI超算
作者:李丹来源:硬AI英伟达号称开创先河的人工智能(AI)超级计算机DGX H200正式交付,OpenAI喝到了“头啖汤”。美东时间4月24日周三,OpenAI总裁兼联合创始人Greg Brockman在社交媒体...【详细内容】
2024-04-25  Search: OpenAI  点击:(15)  评论:(0)  加入收藏
Google成了“AI界汪峰”,全都怪OpenAI?
  2016 年,Google CEO 桑达尔·皮查伊在 I/O 开发者大会上豪情满怀地向全世界宣布:Google 已经成为了搜索的代名词,Alphabet 未来将成为一家 AI 优先的公司。  凭借...【详细内容】
2024-04-15  Search: OpenAI  点击:(27)  评论:(0)  加入收藏
OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型
IT之家 4 月 12 日消息,OpenAI 今日宣布,新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比,新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】
2024-04-12  Search: OpenAI  点击:(26)  评论:(0)  加入收藏
没有OpenAI任何股份,奥特曼靠投资也身价数十亿
  在最新的福布斯与彭博社亿万富翁排行榜上,OpenAI联合创始人兼CEO奥特曼(Sam Altman)个人资产超过了20亿美元。这也是这位创业新贵首次进入十亿美元级别的亿万富翁行列,然而...【详细内容】
2024-04-12  Search: OpenAI  点击:(20)  评论:(0)  加入收藏
▌简易百科推荐
OpenAI用26分钟再次震撼世界!新模型GPT-4o语音水平接近人类,科幻正在成真
出品 | 搜狐科技作者 | 梁昌均北京时间5月14日凌晨,OpenAI再迎重磅更新,虽然不是AI搜索,也不是GPT-5,而是发布了新旗舰模型GPT-4o,但也足以让业内震撼。在此次OpenAI 仅有26分钟...【详细内容】
2024-05-14    搜狐科技  Tags:OpenAI   点击:(0)  评论:(0)  加入收藏
科技界的“AI月”开启!OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验?
  每经记者 蔡鼎 每经编辑 兰素英  全球市场迎来“AI月”。从当地时间5月13日到6月10日,AI领域的开发者和投资者们将迎来一个接一个的重要事件。  从OpenAI直播演示Ch...【详细内容】
2024-05-14    每日经济新闻  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI发布会回顾:最新旗舰模型免费用 ChatGPT进入实时互动纪元
财联社5月14日讯(编辑 史正丞)北京时间周二凌晨1点,自年初“文生视频模型” Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官Mira Murati向外界展现了多项...【详细内容】
2024-05-14    财联社  Tags:OpenAI   点击:(2)  评论:(0)  加入收藏
OpenAI宣布下周一直播演示ChatGPT和GPT-4更新 但不会有搜索引擎
【TechWeb】5月11日消息,据外媒报道,在人工智能领域走在行业前列的OpenAI,已在官网宣布,他们将在太平洋时间5月13日上午10点,也就是北京时间5月14日凌晨1点,进行网络直播,演示部分C...【详细内容】
2024-05-13    TechWeb  Tags:OpenAI   点击:(6)  评论:(0)  加入收藏
通义千问APP更名为通义APP 免费开放通义全栈能力
5月9日消息,通义大模型品牌升级,“通义千问APP”更名为“通义APP”,集成通义大模型全栈能力,免费为所有用户提供服务。据悉,通义APP以性能媲美GPT-4 Turbo的基模为底座,并把通义实...【详细内容】
2024-05-10    PChome  Tags:通义千问   点击:(6)  评论:(0)  加入收藏
从商汤看大模型的商业转机
对商汤科技的关注,笔者从未停止过,商汤的产品设计与商业思维是四小龙中最出色的,去年4月商汤日日新大模型发布时笔者也曾聊过这个话题《商汤日日新大模型》,这次因为港股爆涨再...【详细内容】
2024-05-07    雪球  Tags:商汤   点击:(7)  评论:(0)  加入收藏
AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务 更黑箱了
AI做数学题,真正的思考居然是暗中“心算”的?纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在一些复杂任务上的表现也能大幅提升!一作Jacab Pf...【详细内容】
2024-05-07    快科技  Tags:AI   点击:(10)  评论:(0)  加入收藏
Kimi、通义千问、Claude“变身”马斯克,它们这样评价雷军
长文本对大模型而言为何重要?文|孙欣编辑|姚赟头图来源|视觉中国(13.740, 0.00, 0.00%)200万字,意味着什么?《埃隆·马斯克传》30万字,《红楼梦》70万字,《后宫甄嬛传》100...【详细内容】
2024-05-07    中国企业家  Tags:雷军   点击:(8)  评论:(0)  加入收藏
谷歌裁掉整个Python团队!PyTorch 创始人急得直骂人:“WTF!核心语言团队无可替换”
来源:InfoQ编辑 | Tina、褚杏娟、冬梅我们长期人手不足,但是我 20 年来最好的工作。 谷歌 Python 工程师、Python 指导委员会成员 Thomas Wouters 昨天在社交媒体上发布了一...【详细内容】
2024-04-29    InfoQ  Tags:Python   点击:(17)  评论:(0)  加入收藏
黄仁勋最新访谈:AI不会完全取代人类工作
英伟达CEO黄仁勋认为,人工智能将改变世界,但人类的工作并不会因此消失。在当地时间周日晚上播出的一次采访中,黄仁勋说,随着人工智能帮助企业,它们自然会扩张。他说:“工人们为公...【详细内容】
2024-04-29  环球市场播报    Tags:黄仁勋   点击:(21)  评论:(0)  加入收藏
站内最新
栏目相关
  • · OpenAI用26分钟再次震撼世界!新模型GPT-4o语音水平接近人类,科幻正在成真
  • · 科技界的“AI月”开启!OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验?
  • · OpenAI发布会回顾:最新旗舰模型免费用 ChatGPT进入实时互动纪元
  • · OpenAI宣布下周一直播演示ChatGPT和GPT-4更新 但不会有搜索引擎
  • · 通义千问APP更名为通义APP 免费开放通义全栈能力
  • · 从商汤看大模型的商业转机
  • · AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务 更黑箱了
  • · Kimi、通义千问、Claude“变身”马斯克,它们这样评价雷军
  • · 谷歌裁掉整个Python团队!PyTorch 创始人急得直骂人:“WTF!核心语言团队无可替换”
  • · 黄仁勋最新访谈:AI不会完全取代人类工作
  • · 第一批喂养AI的「妈妈工人」,正在被抛弃
  • · OpenAI“尝鲜”:收到英伟达全球首部DGX H200 AI超算
  • · 开源VS闭源,李彦宏、周鸿祎等大佬各持己见
  • · 半个AI圈,向李彦宏“开炮”
  • · 黄仁勋最新研判:三大行业将迎来颠覆性变革
  • · 美国参议院通过涉“字节剥离TikTok”新法案
  • · 移动版谷歌 Chrome 浏览器开始引入“短暂模式”:用户无需下载,即可体验应用
  • · 马斯克:可能在明年年底前出售特斯拉人形机器人 Optimus
  • · 微软推出iPhone能跑的ChatGPT级模型,性能超Llama-3
  • · 微软解锁 Copilot 特性:字符上限最高调至 1.6 万、支持梳理 PDF 等文件内容
  • 站内热门
    相关头条
  • · OpenAI用26分钟再次震撼世界!新模型GPT-4o语音水平接近人类,科幻正在成真
  • · 斯坦福发布2024 AI报告:中国AI专利全球第一,顶级AI模型主要来自美国
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • 站内头条