给大模型评分的基准靠谱吗？Anthropic来了次大评估

时间：2023-11-06 09:20:27 来源：机器之心作者：

文章来源：机器之心

在大模型（LLM）盛行的当下，评估 AI 系统成为了重要的一环，在评估过程中都会遇到哪些困难，Anthropic 的一篇文章为我们揭开了答案。

图片来源：由无界 AI生成

现阶段，大多数围绕人工智能（AI）对社会影响的讨论可归结为 AI 系统的某些属性，例如真实性、公平性、滥用的可能性等。但现在面临的问题是，许多研究人员并没有完全意识到建立稳健可靠的模型评估是多么困难。当今许多现有的评估套件在各个方面的表现都很有限。

AI 初创公司 Anthropic 近日在其官方网站上贴出了一篇文章《评估 AI 系统所面临的挑战》。文中写道，他们花了很长的时间来构建对 AI 系统的评估，从而更好地理解 AI 系统。

给大模型评分的基准靠谱吗？Anthropic来了次大评估

文章地址：https://www.anthropic.com/index/evaluating-ai-systems

本文主要从以下几个方面展开讨论：

多项选择评估（Multiple choice evaluations）；
利用第三方评估框架，如 BIG-bench 和 HELM；
让工作人员来衡量模型是有益的还是有害的；
让领域专家对相关威胁进行红队分析（red team）；
使用生成式 AI 来开发评估方法；
与非营利组织合作，审核模型是否具有危害。

多项选择评估面临的挑战

多项选择评估看似简单，其实不然。本文讨论了模型在 MMLU（Measuring Multitask Language Understanding）和 BBQ（Bias Benchmark for QA）基准上的挑战。

MMLU 数据集

MMLU 是一个包含 57 个多选问答任务的英文评测数据集，涵盖数学、历史、法律等，是目前主流的 LLM 评测数据集。准确率越高，意味着模型的能力越强。但本文发现使用 MMLU 存在四个挑战：

1. 由于 MMLU 被广泛使用，因而就不可避免的遇到这种情况，模型在训练过程中更容易将 MMLU 数据纳入进来。这和学生在考试前看到题目是一样的 —— 这是作弊。

2. 对简单的格式变化敏感，例如将选项从 (A) 更改为 (1)，或者在选项和答案之间添加额外的空格，这些做法都可能导致评估准确率约有 5% 的浮动。

3. 一些开发人员有针对性的来提高 MMLU 分数，例如少样本学习或思维链推理。因此，在比较各个实验室的 MMLU 分数时必须非常小心。

4.MMLU 可能没有经过仔细的校对 —— 有研究者在 MMLU 中发现了标签错误或无法回答的例子。

由于上述问题，因而在进行这种简单且标准化的评估时，有必要事先做出判断和思考。本文表明，在使用 MMLU 中遇到的挑战通常也适用于其他类似的多项选择评估。

BBQ

多项选择评估还可以衡量一些 AI 危害。具体而言，Anthropic 的研究者为了在自家模型 Claude 中衡量这些危害，他们使用了 BBQ 基准（用于评估模型对人群偏见的常用基准）。在将此基准与几个类似的评估进行比较后，本文才确信 BBQ 提供了一个很好的衡量社会偏见的方法。这项工作花了他们几个月的时间。

本文表示，实施 BBQ 比预期要困难得多。首先是找不到一个可用的 BBQ 开源实现，Anthropic 最好的工程师花了一个星期的时间来执行和测试评估。与 MMLU 中按照准确率评估不同，BBQ 中的 bias 得分需要细微差别和经验来定义、计算和解释。

BBQ bias 得分范围从 - 1 到 1，其中 1 表示有明显的刻板偏见，0 表示没有偏见，-1 表示有明显的反刻板偏见。在实现 BBQ 之后，本文发现一些模型 bias 得分为 0，这一结果也让研究者感到乐观，表明他们在减少有偏见的模型输出方面取得了进展。

第三方评估框架

最近，第三方一直在积极开发评估套件。到目前为止，Anthropic 已经参与了其中的两个项目：BIG-bench 和斯坦福大学的 HELM（Holistic Evaluation of Language Models）。尽管第三方评估看起来很有用，但这两个项目都面临新的挑战。

BIG-bench

BIG-bench 包含 204 项评估，由 450 多名研究者合作完成，涵盖从科学到社会推理的一系列主题。Anthropic 表示他们在使用这个基准时遇到了一些挑战：为了安装 BIG-bench，他们耗费了大量的时间。BIG-bench 不像 MMLU 那样即插即用 —— 它甚至比使用 BBQ 更多的努力来实施。

BIG-bench 无法有效的扩展，想要全部完成 204 项评估具有很大的挑战性。因而需要重新编写，以便与使用的基础设施很好地配合，工作量巨大。

此外，在实施过程中，本文发现评估中存在一些 bug，使用起来非常不便利，因此 Anthropic 的研究人员在这次实验后放弃了它。

HELM：自上而下地策划一组评估

BIG-bench 是一项「自下而上」的工作，任何人都可以提交任何任务，然后由一组专家组织者进行有限的审查。而 HELM 则采用「自上而下」的方法，由专家决定用什么任务评估模型。

具体来说，HELM 在推理场景、含虚假信息场景等多个场景中评估模型，采用准确性、稳健性、公平性等标准指标。Anthropic 为 HELM 开发人员提供 API 访问权限，以便在其模型上运行基准测试。

相比于 BIG-bench，HELM 有两个优势：1）它不需要进行大量的工程工作，2）可以依靠专家来选择和解释特定的高质量评估。

然而，HELM 也带来了一些挑战。适用于评估其他模型的方法不一定适用于 Anthropic 的模型，反之亦然。例如，Anthropic 的 Claude 系列模型经过训练，遵循特定的文本格式，称为 Human/Assistant 格式。Anthropic 内部评估其模型时会遵循这种特定格式。如果不遵循这种格式，Claude 有时就会给出不寻常的回答，从而使标准评估指标的结果不太可信。

此外，HELM 需要很长的时间才能完成，评估新模型可能需要几个月的时间，并且需要与外部各方进行协调和沟通。

人工智能系统是为了与人进行开放式动态交互而设计的，那么如何对模型进行更接近现实应用的评估？

众包人员进行 A/B 测试

目前，领域内主要（但不完全）依赖一种基本类型的人类评估 —— 在众包平台上进行 A/B 测试，人们在其中与两个模型进行开放式对话，并从模型 A 或 B 中选择响应更有帮助或更无害，根据模型的有用性或无害性对模型进行排名。这种评估方法的优点是与现实环境相对应，并允许对不同的模型进行排名。

然而，这种评估方法有一些局限性，实验运行起来既昂贵又耗时。

首先，这种方法需要与第三方众包平台合作并为其付费，为模型构建自定义 Web 界面，为 A/B 测试人员设计详细的说明，还要分析和存储结果数据，并解决雇用众包人员带来的道德挑战。

在无害性测试情况下，实验还存在使人们接触有害输出的风险。人类评估的结果可能还会因人类评估者的特征存在很大差异，包括人类评估者的创造力水平、动机以及识别所测试系统潜在缺陷的能力。

此外，有用和无害之间存在固有的张力。系统可以通过提供无用的响应（例如「抱歉，我无法帮助您」）来降低有害性。

有用与无害之间的正确平衡是什么？什么指标数值表明模型足够有用且无害？诸多问题需要领域内研究者做更多工作来找到答案。

了解更多内容，请参考原文章。

原文链接：https://www.anthropic.com/index/evaluating-ai-systems

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-08　　Search: 大模型点击:(4)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

金店跑路，存金难兑黄	花10万买的数字藏品成
超30城支持！房子“以旧	耶伦记者会：访华取得三
tiktok优质视频判断标	外媒：超过马斯克！扎克伯
德国总理朔尔茨加入Ti	访问网站显示不安全是