您当前的位置:首页 > 电脑百科 > 人工智能

谁在给大模型打分?

时间:2023-07-26 18:36:59  来源:新浪网  作者:科技新知

大模型,跑个分。

@科技新知 原创

作者丨樟稻 编辑丨伊页

当新赛道挤满了摩拳擦掌的选手,场边的裁判员也应运而生。

5月,国家科技部下属的中国科学技术信息研究所,发布了《中国人工智能大模型地图研究报告》。内容显示,截至5月28日,国内10亿级参数规模以上基础大模型至少已发布79个。

每一个亮相时,都少不了“行业领先”“技术革新”诸如此类的标签。不免引来质疑:如何直观地评判哪一款大模型在技术和性能上更为卓越?那些宣称“第一”的评估标准与数据来源又是怎样的?

一把衡量不同模型效能基准的“尺子”亟待打造。

前不久,国际咨询公司IDC发布《AI大模型技术能力评估报告2023》,调研了9家中国市场主流大模型技术厂商。其他不少研究机构和团队也投入资源,发布了对应的评价标准和深度报告。这背后所显露的现象和趋势,更值得深层次的探讨。

评测基准百家争鸣

ChatGPT 带火了大模型应用的相关研究,评测基准亦成为关注焦点所在。

日前,微软亚洲研究院公开了介绍大模型评测领域的综述文章《A Survey on Evaluation of Large Language Models》。根据不完全统计(见下图),大模型评测方面文章的发表呈上升趋势,越来越多的研究着眼于设计更科学、更好度量、更准确的评测方式来对大模型的能力进行更深入的了解。

文中一共列出了19个受欢迎的基准测试,每个都侧重于不同的方面和评估标准,为其各自的领域提供了宝贵的贡献。为了更好地总结,研究员将这些基准测试分为两类:通用基准(General benchmarks)和具体基准(Specific benchmarks),其中不乏一些深具盛名的大模型基准。

Chatbot Arena,就被行业人士普遍认为是最具公平性与广泛接受度的平台。其背后的推手——LMSYS Org,是一个开放的研究组织,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立。

这个创新性的评估标准,为各大AI研究机构与技术爱好者,提供了一个既独特又具有激烈竞争力的场所,专门用于评价和比对不同聊天机器人模型的实际应用效果。用户能够与其中的匿名模型进行实时互动,而后通过在线投票系统表达他们对于某一模型的满意度或喜好。

值得一提的是,该评测方式的设计灵感来源于国际象棋等竞技游戏中盛行的ElO评分系统。通过积累大量的用户投票,它能够更为贴近实际场景地评估各模型的综合表现。

微软亚洲研究院还在文中提到了通用基准C-Eval,这是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,该项目由上海交通大学、清华大学、爱丁堡大学共同完成。

除了通用任务的基准测试外,还存在一些专为某些下游任务设计的具体基准测试。

譬如,MultiMedQA是一个医学问答基准测试,重点关注医学检查、医学研究和消费者健康问题。该基准由谷歌和DeepMind的科研人员提出,它包括七个与医学问答相关的数据集,其中包括六个现有的数据集和一个新的数据集。测试目标是评估大语言模型在临床知识和问答能力方面的性能。

还有一些中文评测基准被微软研究院所遗漏。例如SuperCLUE,作为针对中文可用的通用大模型的一个测评基准,由来自中文语言理解测评基准开源社区CLUE的成员发起。

为了着眼于综合评价大模型的能力,使其能全面地测试大模型的效果,又能考察模型在中文上特有任务的理解和积累,SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。

实际上,这些维度只是冰山一角。在评测 LLMs 的性能时,选择合适的任务和领域对于展示大型语言模型的表现、优势和劣势至关重要。微软亚洲研究院将现有的任务划分为了7个不同的类别:

自然语言处理:包括自然语言理解、推理、自然语言生成和多语言任务;

鲁棒性、伦理、偏见和真实性;

医学应用:包括医学问答、医学考试、医学教育和医学助手;

社会科学;

自然科学与工程:包括数学、通用科学和工程;

代理应用:将 LLMs 作为代理使用;

其他应用。

纵观当前AI领域的发展趋势,大模型的评测基准测试不再仅仅是一个单一的技术环节,而是已经逐步成为整个上下游产业链中的重要配套。

正确地使用“尺子”

存在即合理。

大模型评测基准的诞生和持续优化,之所以呈现出愈演愈烈的势头,无疑与其所能带来的巨大价值和业界的广泛认同是密不可分的。

可以看到,通过深入的大模型评测基准分析,能够更为明确和系统地揭示大模型在各种应用场景中的优势与局限性。这种专业的评估不仅为AI领域的研发者提供了清晰的指导,同时也助力用户最终作出更为明智的技术选择。

在复杂的研发过程中,判断技术方案或特定模型的优越性往往是一个挑战。C-Eval数据集和其相关榜单,意义不仅仅是一系列的数字或排名,而是为大模型的研发者提供了一套客观、系统的评估工具。

用C-Eval项目团队的话来说,“我们的最重要目标是辅助模型开发”。

具体来看,研发团队可以与企业紧密合作,将大模型评测基准整合到他们的开发和测试工作流程中。这不仅可以在实际应用环境中验证模型的性能,还能通过双方的深度沟通,找到在测试过程中可能遇到的技术难题和挑战,从而实现更为高效和准确的模型优化。

正是基于这一点,多家头部大模型厂商不仅在模型研发上持续投入,同时也在评测基准的制定与优化上下足了功夫。

譬如科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,覆盖7大类481个细分任务类型;阿里巴巴达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam,共涵盖12317道题目,等等。

不过也正如C-Eval项目团队所强调的:对于大模型厂商,单纯地追求榜单的高位排名,并不应成为其主要追求。

当厂商将榜单成绩作为首要目标时,可能会为了追求高分而采用过度拟合榜单的策略,这样就很容易损失模型的广泛适用性。更为关键的是,若仅仅着眼于排名,厂商可能为了短期的成绩而试图寻找捷径,从而违背了真正踏实的科研精神与价值观。

再看终端用户的视角中,大模型测评基准提供了一个全面的、结构化的参考框架,从而充分地辅助用户在众多技术选项中做出更为理性和明智的决策。这种评测不仅降低了技术采纳的风险,也确保了用户能够从所选模型中获得最佳的投资回报率。

尤其对于那些还未拥有深厚大模型研发实力的企业来说,深入了解大模型的技术边界,并能够针对自身需求高效地进行技术选型,是至关重要的。

综上,不论是对于背后的研发团队还是产品侧的终端用户,大模型评测基准都承载着不可估量的价值和意义。

劣币来袭

吊诡的是,由于在原理核心上并不涉及复杂的技术门槛,导致目前市场上的大模型评测基准的数量,甚至已经超过了大模型本身。这其中自然有许多机构见到了可乘之机,进行各种市场操作,包括混淆视听、误导消费者的行为。

此前就有观点认为,随着AI技术的发展,大模型评测可能会被某些公司或机构用作营销工具,通过发布其模型的高分评测结果来吸引公众的注意力,以期提高产品的市场份额。

目前也有一些突出的现象佐证:在某些特定评测榜单中领先的厂商,放到其他不同的榜单评测中,却未能够维持其优势地位。

不能排除存在着客观原因。当前阶段,对于大模型的评估机制和具体评测指标,并没有达到一个行业共识,更遑论出现统一的的评测标准。不同的应用环境和任务标准,就会产生截然不同的评价框架和需求。

此外,大模型评测通常依赖于两大主要方法:自动评测和人工评测。自动评测是基于精确的计算机算法和一系列预定义的指标进行,而人工评测更多强调人类专家的主观见解、经验和质量判定。

遇到大模型生成诗歌或短文这类任务时,人工评测的主观性变得尤为显著。自古“文无第一,武无第二”,不同的评审者可能会对同一作品给出不同的评价。

然而,从相关搜索结果中不难发现,大模型评测早已被某些厂商视为一个营销的竞技场。毕竟在一个竞争激烈的市场中,每一个厂商都希望自己的产品能够脱颖而出。

因此有充分的动机去选择那些能够突显自己产品优势的评测指标,而忽略那些可能暴露弱项的指标。这种选择性的展示,即使有机会带来短期的市场优势,但是对于消费者和整个行业来说,必然是有害的。

一时的误导一旦扭曲了市场的竞争格局,可能使得真正有价值的创新被埋没。劣币驱逐良币之下,那些只是为了宣传而进行的“创新”反而会趋之若鹜。

从这个角度出发,大模型评测基准还是应该回归其本质,即为了更好地理解和比较不同模型的性能,为研发者和终端用户提供反馈,而不是为了产品厂商的短期利益。

既然要当裁判员,还是要尽量做到独立、客观、第三方。



Tags:大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: 大模型  点击:(2)  评论:(0)  加入收藏
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-07  Search: 大模型  点击:(3)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03  Search: 大模型  点击:(5)  评论:(0)  加入收藏
大模型Kimi火了,长文本“卷”出新高度
近日,AI智能助手Kimi宣布支持200万字无损上下文,在长上下文窗口技术上再次取得突破,引燃人工智能领域新一轮投资热情。  摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo,支持1...【详细内容】
2024-03-29  Search: 大模型  点击:(13)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27  Search: 大模型  点击:(13)  评论:(0)  加入收藏
超长文本是AI大模型的能力突破口吗?
◎记者 刘怡鹤近日,能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为,国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】
2024-03-26  Search: 大模型  点击:(8)  评论:(0)  加入收藏
百度AI“咬”了一口苹果 大模型商用有戏了?
百度3月25日突传利好。据知情人士透露,百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称,苹果曾与阿里以及另外一家国产大模型公司进行过洽谈,最后确定...【详细内容】
2024-03-26  Search: 大模型  点击:(18)  评论:(0)  加入收藏
Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
从ChapGPT到Sora,从数千亿参数到千万长文本,大模型浪潮下,永远不缺热点。近日,“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜,让月之暗面这家刚成立一年的人工智...【详细内容】
2024-03-25  Search: 大模型  点击:(15)  评论:(0)  加入收藏
Kimi爆了 国产大模型应用元年还远吗?
国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据,Kimi智能助手的周度访问量由23年12月初的15万提升至近期(3.10-3.16)的超过200万,APP端下载量也快速提升,从2月初的效率...【详细内容】
2024-03-22  Search: 大模型  点击:(14)  评论:(0)  加入收藏
国产大模型开卷“比谁长”?Kimi爆火点燃长文本竞争赛道
来源:财联社近日,又一现象级AI应用Kimi爆火出圈,在用户端和资本市场都掀起波澜,引发多个Kimi相关概念股异常波动。海天瑞声(688787.SH)、中广天择(603721.SH)等上市公司纷纷回应“无...【详细内容】
2024-03-22  Search: 大模型  点击:(5)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条