您当前的位置:首页 > 电脑百科 > 人工智能

类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定

时间:2024-05-14 10:26:12  来源:硬AI  作者:

虽然没有带来备受期待的人工智能AI搜索引擎,但OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。

美东时间5月13日周一,OpenAI首席技术官Mira Murati在直播演示中宣布,推出新的OpenAI旗舰AI模型,名为GPT-4o,称它面向所有人,包括免费用户,为“我们的免费用户带来GPT-4级的智能”。OpenAI还推出了台式机版本的ChatGPT以及新的用户界面(UI)。

Murati说:“这是我们第一次在便于使用方面真正迈出一大步。” 她评价,GPT-4o的“速度快得多”,提升了GPT-4在文本、视频和音频方面的功能,“GPT-4o 通过语音、文本和视觉进行推理”。 

Murati在演示中称,相比GPT-4 Turbo,GPT-4o的速度快了两倍,成本降低了50%,API速率限制、即用户可发出的请求数量提高了五倍。有网友在社交媒体X上对此感到开心,称API终于改进了。

实时求解方程、做口译、分析图表、读取用户情绪

GPT-4之前已经可以分析图像和文本,完成从图像中提取文本、以文本描述图像内容这类任务。GPT-4o则是增加了语音功能。Murati 强调了GPT-4o在实时语音和音频功能方面必要的安全性,称OpenAI将继续部署迭代,带来所有的功能。

在演示中,OpenAI 研究主管 Mark Chen掏出手机打开ChatGPT,用语音模式Voice Mode现场演示,向GPT-4o支持的ChatGPT征询建议。GPT的声音听起来像一位美国女性,当它听到Chen过度呼气时,它似乎从中察觉到了他的紧张。 然后说“Mark,你不是吸尘器”,告诉Chen要放松呼吸。如果有些大变化,用户可以中断GPT, GPT-4o的延迟通常应该不会超过两三秒。

另一项演示中,OpenAI的后训练团队负责人Barret Zoph在白板上写了一个方程式3x+1=4,ChatGPT给他提示,引导他完成每一步解答,识别他的书写结果,帮助他解出了X的值。这个过程中,GPT充当了实时的数学老师。GPT能够识别数学符号,甚至是一个心形。

应社交媒体X的用户请求,Murati现场对ChatGPT说起了意大利语。GPT则将她的话翻译成英语,转告Zoph和Chen。听完Murati说的意大利语,GPT翻译为英文告诉Chen:“Mark,她(Murati)想知道鲸鱼会不会说话,它们会告诉我们什么?” 

OpenAI 称,GPT-4o还可以检测人的情绪。在演示中,Zoph将手机举到自己面前正对着脸,要求ChatGPT告诉他自己长什么样子。最初,GPT参考了他之前分享的一张照片,将他识别为“木质表面”。经过第二次尝试,GPT给出了更好的答案。

GPT注意到了Zoph脸上的微笑,对他说:“看起来你感觉非常快乐,喜笑颜开。”

有评论称,这个演示显示,ChatGPT可以读取人类的情绪,但读取还有一点困难。

OpenAI的高管表示,GPT-4o可以与代码库交互,并展示了它根据一些数据分析图表,根据看到的内容对一张全球气温图得出一些结论。

OpenAI称,基于GPT-4o的ChatGPT文本和图像输入功能将于本周一上线,语音和视频选项将在未来几周内推出。

X平台的网友注意到了OpenAI展示的新功能。有网友指出,GPT-4o不仅可以将语音转换为文本,还可以理解和标记音频的其他特征,例如呼吸和情感,不确定这在模型响应中是如何表达的。

有网友指出,根据演示,ChatGPT的语音能帮助实时求解方程,像人类一样说话,而且几乎是即时响应,全部都在手机上运行。

最快232毫秒响应音频输入 平均响应时间和人类相似

OpenAI官网介绍,GPT-4o中的o代表意为全能的前缀omni,称它向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

除了API的速度更快、成本大幅下降,OpenAI还提到,GPT-4o可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo 的性能一致,并且在非英语文本方面的性能有了显著提高。

OpenAI介绍,与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。以前GPT-3.5和GPT-4用户以语音模式Voice Mode与ChatGPT 对话的平均延迟时间为2.8 秒和 5.4 秒,因为OpenAI用了三个独立的模型实现这类对话:一个模型将音频转录为文本,一个模型接收并输出文本,再有一个模型将该文本转换回音频。这个过程意味着,GPT丢失了大量信息,它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而GPT-4o的语音对话是OpenAI跨文本、视觉和音频端到端训练一个新模型的产物,这意味着所有输入和输出都由同一神经网络处理。OpenAI称,GPT-4o 是其第一个结合所有这些模式的模型,因此仍然只是浅尝辄止地探索该模型的功能及其局限性。

 

上周曾有消息称,OpenAI将发布基于AI的搜索产品,但上周五OpenAI的CEO Sam Altman否认了该消息,称本周一演示的既不是GPT-5,也不是搜索引擎。这意味着OpenAI再一次没有像市场爆料的时间线那样推出AI搜索。此后有媒体称,OpenAI的新产品可能是一个具备视觉和听觉功能的全新多模态AI模型,且具有比目前聊天机器人更好的逻辑推理能力。

本周一的演示的确展示了OpenAI在语音方面的努力。对于OpenAI推出的新模型和UI更新,有网友称,感觉到目前为止OpenAI没有那么开创性。

也有网友觉得OpenAI进一步拉开了和苹果(186.28, 3.23, 1.76%)的差距,还发了一张人满头大汗的动图,称现在苹果的语音助手Siri应该是这个样子。



Tags:OpenAI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定
虽然没有带来备受期待的人工智能(AI)搜索引擎,但OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。美东时间5月13日周一,OpenAI首...【详细内容】
2024-05-14  Search: OpenAI  点击:(0)  评论:(0)  加入收藏
科技界的“AI月”开启!OpenAI、谷歌、微软等巨头将带来哪些颠覆性体验?
  每经记者 蔡鼎 每经编辑 兰素英  全球市场迎来“AI月”。从当地时间5月13日到6月10日,AI领域的开发者和投资者们将迎来一个接一个的重要事件。  从OpenAI直播演示Ch...【详细内容】
2024-05-14  Search: OpenAI  点击:(1)  评论:(0)  加入收藏
ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步
科幻电影‘Her’的剧情正在成为现实。作者 | 黎诗韵5 月 13 日,OpenAI 用一场春季发布会,再次搅动了整个 AI 行业。在 Sam Altman 缺席的情况下,OpenAI CTO Mira Mur...【详细内容】
2024-05-14  Search: OpenAI  点击:(1)  评论:(0)  加入收藏
OpenAI发布会回顾:最新旗舰模型免费用 ChatGPT进入实时互动纪元
财联社5月14日讯(编辑 史正丞)北京时间周二凌晨1点,自年初“文生视频模型” Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官Mira Murati向外界展现了多项...【详细内容】
2024-05-14  Search: OpenAI  点击:(1)  评论:(0)  加入收藏
OpenAI宣布下周一直播演示ChatGPT和GPT-4更新 但不会有搜索引擎
【TechWeb】5月11日消息,据外媒报道,在人工智能领域走在行业前列的OpenAI,已在官网宣布,他们将在太平洋时间5月13日上午10点,也就是北京时间5月14日凌晨1点,进行网络直播,演示部分C...【详细内容】
2024-05-13  Search: OpenAI  点击:(6)  评论:(0)  加入收藏
OpenAI“尝鲜”:收到英伟达全球首部DGX H200 AI超算
作者:李丹来源:硬AI英伟达号称开创先河的人工智能(AI)超级计算机DGX H200正式交付,OpenAI喝到了“头啖汤”。美东时间4月24日周三,OpenAI总裁兼联合创始人Greg Brockman在社交媒体...【详细内容】
2024-04-25  Search: OpenAI  点击:(15)  评论:(0)  加入收藏
Google成了“AI界汪峰”,全都怪OpenAI?
  2016 年,Google CEO 桑达尔·皮查伊在 I/O 开发者大会上豪情满怀地向全世界宣布:Google 已经成为了搜索的代名词,Alphabet 未来将成为一家 AI 优先的公司。  凭借...【详细内容】
2024-04-15  Search: OpenAI  点击:(27)  评论:(0)  加入收藏
OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型
IT之家 4 月 12 日消息,OpenAI 今日宣布,新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比,新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】
2024-04-12  Search: OpenAI  点击:(26)  评论:(0)  加入收藏
没有OpenAI任何股份,奥特曼靠投资也身价数十亿
  在最新的福布斯与彭博社亿万富翁排行榜上,OpenAI联合创始人兼CEO奥特曼(Sam Altman)个人资产超过了20亿美元。这也是这位创业新贵首次进入十亿美元级别的亿万富翁行列,然而...【详细内容】
2024-04-12  Search: OpenAI  点击:(20)  评论:(0)  加入收藏
全球十大独角兽发布:字节稳坐第一,SpaceX第二,OpenAI第三
鞭牛士报道,4月10日消息,根据胡润《2024 年全球独角兽指数》,TikTok 所有者字节跳动以 1.56 万亿元人民币(1.72 万亿港元)连续第三年成为全球最大的独角兽公司。SpaceX 以 1.28...【详细内容】
2024-04-10  Search: OpenAI  点击:(25)  评论:(0)  加入收藏
▌简易百科推荐
类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定
虽然没有带来备受期待的人工智能(AI)搜索引擎,但OpenAI在主打产品AI模型上花了更多心思,拓展多模态功能,让用户可以免费玩转文字、图片和语音输入。美东时间5月13日周一,OpenAI首...【详细内容】
2024-05-14    硬AI  Tags:OpenAI   点击:(0)  评论:(0)  加入收藏
ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步
科幻电影‘Her’的剧情正在成为现实。作者 | 黎诗韵5 月 13 日,OpenAI 用一场春季发布会,再次搅动了整个 AI 行业。在 Sam Altman 缺席的情况下,OpenAI CTO Mira Mur...【详细内容】
2024-05-14    极客公园  Tags:ChatGPT   点击:(1)  评论:(0)  加入收藏
“AI+”金融的应用与边际
来源:北京商报金融是“AI+”的最理想应用场景,而AI是普惠金融的核心驱动力(3.750, 0.00, 0.00%)之一。4月29日,在2024中关村(4.340, 0.00, 0.00%)论坛年会——金融科...【详细内容】
2024-04-30    北京商报  Tags:AI+   点击:(21)  评论:(0)  加入收藏
深入理解并掌握 Spring AI 与 Open AI 的使用方法
Spring AI,作为行业领导者,通过其强大、灵活的API和先进的功能,为各种行业提供了颠覆性的解决方案。在本专题中,我们将深入探讨Spring AI在各领域的应用示例。每个案例都将展示...【详细内容】
2024-04-29   路条编程  微信公众号  Tags: Spring AI   点击:(9)  评论:(0)  加入收藏
全面走向“人工智能+” 国内首个汽车大模型标准发布
中国信息通信研究院今天(28日)发布了国内首个汽车大模型标准。标准主要涵盖三个能力域,其中场景丰富度侧重评估汽车大模型对智能座舱和自动驾驶等细分场景的支持情况,能力支持度...【详细内容】
2024-04-28    央视网  Tags:大模型   点击:(30)  评论:(0)  加入收藏
开源还是闭源?哪个才是大模型的发展之路?
2023年7月,Meta发布了其首款面向市场的开源大模型Llama 2,免费提供给研究和商业开发者使用。自此,闭源与开源两种技术路线的交锋正式拉开序幕。 时至今日,围绕闭源与开源...【详细内容】
2024-04-25    比特网  Tags:大模型   点击:(14)  评论:(0)  加入收藏
抖音追不上Sora
来源:字母榜在AI文生视频这条热门赛道,抖音旗下的剪映,正在被OpenAI的Sora越甩越远。近日,美国软件巨头Adobe宣布,将在知名视频编辑软件Premiere Pro的新版本添加多款文生视频AI...【详细内容】
2024-04-24  字母榜    Tags:Sora   点击:(22)  评论:(0)  加入收藏
融汇11款AI工具构建完美应用
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 如您所见,人工智能(AI)应用在近年来得到了长足的发展。从语音助手到软件开发,人工智能已在我们的生...【详细内容】
2024-04-23    51CTO  Tags:AI工具   点击:(20)  评论:(0)  加入收藏
AI“源神”启动!影响多大?
作 者丨冯恋阁 王俊 实习生孔雅萱编 辑丨王俊开源还是闭源?这是属于大模型的时代之问。今年年初,埃隆·马斯克在对OpenAI及其CEO萨姆·奥特曼提起诉讼时,就对OpenA...【详细内容】
2024-04-23    21世纪经济报道  Tags:AI   点击:(15)  评论:(0)  加入收藏
AI“入职”综艺,有多少导演会丢饭碗?
每经记者 杜蔚 温梦华 每经编辑 董兴生 近段时间,AI导演在多国综艺舞台上初露锋芒。韩国电视台在节目《PD消失了》中,引入AI导演“M-Phago”,它可以帮节目选角、撰写文案...【详细内容】
2024-04-23    每日经济新闻  Tags:AI   点击:(14)  评论:(0)  加入收藏
站内最新
站内热门
站内头条