您当前的位置:首页 > 电脑百科 > 人工智能

半年多过去了,ChatGPT的排名快“垫底”了?

时间:2023-09-08 09:37:46  来源:企鹅号  作者: 三言科技

出品|三言Pro

今天,笔者无意中刷到一张图片。

据该图片显示,AI target=_blank class=infotextkey>OpenAI的GPT-4在11个大模型中(第一名序号为0),已经排到了最后。还有网友配上了“GPT4:我的冤屈怎么诉?”的字样。

这不禁让人好奇,今年年初,ChatGPT爆火以后,其他公司才开始提大模型的概念。

这才半年多,GPT就已经“垫底”了?

于是,笔者想看看GPT排名到底咋样了。

测试时间不同

测试团队不同

GPT-4排第十一

从前文中图片上显示的信息来看,这个排名是出自C-Eval榜单。

C-Eval榜单,全称C-Eval全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括52个学科,涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别。

于是笔者查看了最新的C-Eval榜单。

C-Eval榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,GPT-4排最后。

据C-Eval榜单介绍,这些结果代表zero-shot(零样本学习)或者few-shot(少样本学习)测试,但few-shot不一定比zero-shot效果好。

C-Eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置。

C-Eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由C-Eval团队测试得到,而其他结果是通过用户提交获得。

此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别。

GPT-4的测试结果提交时间是5月15日,而位居榜首的云天书,提交时间为8月31日;排第二的Galaxy提交时间为8月23日;排第三的YaYi提交时间为9月4日。

并且,排名前16的这些大模型,只有GPT-4的名字加了“*”,是由C-Eval团队测试的。

于是笔者又查看了完整的C-Eval榜单。

最新的C-Eval榜单一共收录了66个大模型的排名。

其中,名字带“*”,也就是由C-Eval团队测试的,只有11个,且提交测试的时间均为5月15日。

这些由C-Eval团队测试的大模型,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清华智谱AI的ChatGLM-6B排在第六十,复旦的MOSS排在了第六十四。

虽然这些排名可以看出国内的大模型发展势头的迅猛,但笔者认为,毕竟不是同一团队在同一时间进行的测试,不足以完全证明这些大模型谁强谁弱。

这就好比,一个班的学生,每个人的考试时间不同,答的试卷也都不一样,怎么能靠每个学生的分数比高低呢?

大模型开发者怎么说?

多家表示在中文等能力上超过ChatGPT

最近,大模型的圈子相当热闹。

又是百度、字节等8家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。

那这些大模型的开发者又都是怎么介绍自家产品的呢?

7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏表示,复旦对话式大型语言模型MOSS在今年2月发布后,还在连续不停地迭代,“最新的MOSS已经能够在中文能力上超过ChatGPT。”

7月底,网易有道上线翻译大模型,网易有道CEO周枫公开表示,在内部的测试中,在中英互译的方向上,已经超越ChatGPT的翻译能力,也超过了谷歌翻译的水准。

8月下旬,在2023年亚布力论坛夏季高峰会上,科大讯飞创始人、董事长刘庆峰发表演讲时称,“讯飞星火大模型的代码生成和补齐能力已经超过了ChatGPT,其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪,所需要的就是时间和算力。”

商汤近期的新闻稿中称,今年8月,新模型internlm-123b完成训练,参数量提升至1230亿。在全球51个知名评测集共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。

据商汤介绍,internlm-123在主要评测中,有12项成绩排名第一。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列第一;知识问答commonsenseqa的评测分数为88.5,排名第一;internlm-123b在阅读理解的五项评测中成绩全部居榜首。

此外,在推理的五项评测中成绩排名第一。

本月初,作业帮正式发布自研银河大模型。

作业帮表示,银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型以平均分73.7分位居C-Eval榜首;同时在CMMLU榜单Five-shot和Zero-shot测评中分别以平均分74.03分及73.85分位列第一,成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。

昨天,百川智能宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本。

百川智能创始人、CEO王小川称,经过微调之后的Chat模型,在中文领域,在Q&A问答环境,或者摘要环境里面,评价它的实际性能已经超过ChatGPT-3.5这样的闭源模型。

今天,在2023腾讯全球数字生态大会上,腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称,腾讯混元大模型中文能力已经超过GPT-3.5。

除了这些开发者的自我介绍,也有一些媒体和团队对一种大模型进行评比。

8月上旬,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示,百度文心一言在三大维度20项指标中综合评分国内领先,较优于ChatGPT,其中中文语义理解排名靠前,部分中文能力较优于GPT-4。

8月中旬,有媒体报道称,8月11日,小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单。截至当前,MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1,在CMMLU中文向大模型排名第1。

8月12日,天津大学发布《大模型评测报告》。报告显示,GPT-4和百度文心一言相较于其他模型综合性能显著领先,两者得分相差不大,处于同一水平。文心一言已经在大部分中文任务中实现了对ChatGPT的超越,并逐步缩小与GPT-4的差距。

8月下旬,有媒体报道称,快手自研的大语言模型“快意”(KwaiYii)已开启内测。在最新的CMMLU中文向排名中,快意的13B版本KwaiYii-13B同时位列five-shot和zero-shot下的第一名,在人文学科、中国特定主题等方面较强,平均分超61分。

通过上述内容可以看出,这些大模型虽然纷纷号称自己在某排名中居首,或者是在某某方面超越ChatGPT,但大多是在一些具体的领域表现优异。

另外,有一些综合评分超过了GPT-3.5或GPT-4,但GPT的测试是停留在5月的,谁能保证这近3个月的时间里,GPT没有进步呢?

OpenAI的处境

根据瑞银集团2月的一份报告显示,在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。

但ChatGPT的发展也不是那么顺利。

今年7月,有不少GPT-4用户吐槽,与之前的推理能力相比,GPT-4的性能有所下降。

有些用户在推特以及OpenAI在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号,只能记得最近的提示等等。

8月,又有一份报告称,OpenAi可能处于潜在的财务危机中,可能于2024年底破产。

报告中表示,OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。目前,该公司正试图通过GPT-3.5和GPT-4实现盈利,但是还尚未产生足够的收入实现收支平衡。

不过,OpenAI或许也有新的转机。

日前,OpenAI宣布,将于11月举办首届开发者大会。

虽然OpenAI表示不会发布GPT-5,但OpenAI称将有来自世界各地的数百名开发人员与OpenAI团队一起,提前一览“新的工具”,并且交流想法。

这可能意味着,ChatGPT已经取得了新的进步。

另据澎湃新闻报道,8月30日,一位知情人士透露,通过销售AI软件和驱动其运行的计算能力,OpenAI预计将在未来12个月内实现超过10亿美元的收入。

今天,又有媒体报道称,本月晚些时候摩根士丹利将推出一款和OpenAI共同研发的生成式人工智能聊天机器人。

和摩根士丹利的银行家打交道的人,非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验,对OpenAI来说,也许会是一个巨大的收获。

人工智能时代的到来,已经势不可挡。至于到底谁更胜一筹,不能光靠自己说,还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超ChatGPT。



Tags:ChatGPT   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02  Search: ChatGPT  点击:(8)  评论:(0)  加入收藏
无需注册!OpenAI宣布放开ChatGPT使用限制
工智能初创公司OpenAI宣布,即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道:“让ChatGPT等工具广泛可用,让人们能够体验到人工智能的好处,这是我们使命的...【详细内容】
2024-04-02  Search: ChatGPT  点击:(6)  评论:(0)  加入收藏
ChatGPT 突然放开了账户限制,面向所有人开放
大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布:将面向所有人开放,无论你有没有注册账户。从今天开始,访问 Chat.openai.com 将不再要求用户登录,用户将直接进入与 C...【详细内容】
2024-04-02  Search: ChatGPT  点击:(3)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02  Search: ChatGPT  点击:(7)  评论:(0)  加入收藏
ChatGPT之父Altman两小时对谈,首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么
Altman做客油管博主Lex Fridman科技博客 ,被追问了一个又一个辛辣的问题。长达两个小时的对谈,奥特曼从OpenAI宫斗、马斯克诉讼、Sora,一直聊到AGI与外星文明!本文重点梳理了长...【详细内容】
2024-03-20  Search: ChatGPT  点击:(8)  评论:(0)  加入收藏
ChatGPT主管最新访谈:未来AI和人类如何共处?
Peter Deng在最新访谈中表示:AI不会取代生产力,人类和AI只有合作才能释放真正潜力,ChatGPT比已知的更强大、最大的挑战在于理解用户需求。当地时间3月13日,OpenAI 消费产品副总...【详细内容】
2024-03-19  Search: ChatGPT  点击:(11)  评论:(0)  加入收藏
ChatGPT日耗电超50万度,大模型或带来“电荒”
未来两年内将由“缺硅”变为“缺电”,马斯克的预言可能正在变成现实。据《纽约客》杂志报道,OpenAI的热门聊天机器人ChatGPT每天可能要消耗超过50万千瓦时的电力,以响应用户的...【详细内容】
2024-03-11  Search: ChatGPT  点击:(31)  评论:(0)  加入收藏
OpenAI新功能:ChatGPT可调用自定义机器人,对话更高效!
近日,知名科技公司OpenAI推出了一项新的功能——“对话中调用(@)自定义聊天机器人”,让用户在对话中无缝切换不同领域的机器人。这一功能的出现,为用户带来了极大的便...【详细内容】
2024-02-02  Search: ChatGPT  点击:(53)  评论:(0)  加入收藏
ChatGPT元年之后,AI重塑世界,人类如何与其“智慧共生”?
过去一年,人工智能(AI)凭借大语言模型的爆火迅速进入大众视野。它比以往任何时候都更强大,也更具亲和力。这不仅给未来生活带来了新希望,也在人们心中蒙上了一层担忧—&mdas...【详细内容】
2024-01-26  Search: ChatGPT  点击:(77)  评论:(0)  加入收藏
年度最热AI应用TOP 50,除了ChatGPT还有这么多宝藏
量子位 | 公众号 QbitAI百模齐发、AI工具乱杀的一年里,谁是真正赢家?ChatGPT访问量遥遥领先位居第一,但单次使用时长没超过平均线。Midjourney访问量年度第四,但下滑量位居第二...【详细内容】
2024-01-02  Search: ChatGPT  点击:(51)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条