您当前的位置：首页 > 电脑百科 > 人工智能

GPT-4完成正确率仅6%，北大等提出首个“多轮、多模态”PPT任务完成基准PPTC

时间：2023-11-08 10:29:33 来源：新智元作者：

+ 加入收藏

GPT-4完成正确率仅6%，北大等提出首个“多轮、多模态”PPT任务完成基准PPTC

为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白，研究人员引入了PowerPoint任务完成（PPTC）基准测试，以评估LLM创建和编辑PPT文档的能力。

最近对大型语言模型（例如ChatGPT和GPT-4）进行的评估工作主要侧重于在基本自然语言任务上的能力，以及模型生成用于解决单句用户指令的API的工具使用能力，却忽略了在理解复杂多模态环境中使用API完成用户指令的难题。

此外，现有评估方法主要集中在比较生成的API与标签API序列，但在存在多个/无限正确解决方案的复杂情况下，这种方法也变得不再适用。

为了解决这个挑战，来自北大和微软亚洲研究院的研究人员们提出了测试大模型在多轮，多模态环境下完成PPT任务的评估数据集PPTC（PowerPoint Task Completion）。

如图1（a）所示，为了帮助用户完成对PPT文档的创建和编辑，研究人员采取多轮人机对话的形式来构建数据集。

图1：（a）模拟了人类与语言模型之间的多轮对话场景，以评估语言模型在PPT任务完成性能方面的表现。（b）对话单元的轮次数量分布。

每轮开始于用户的指令，大模型需要生成对应的API序列作为解决方法，执行并返回生成的PPT文档给用户。

数据集中一共有279个像这样的多轮对话单元，如图1（b）所示，大部分单元由3到10对话轮次组成。

更进一步，如图2（a）所示，数据集中包含各种难度的用户指令（由所需API数量决定），如数百个涉及到统计图表、表格、图像、空间位置相关多模态操作的指令。

图2：（a）指令所需最少API数量分布。（b）涉及到统计图表，表格，图片和位置操作的用户指令数量。

01 生成和执行API序列

为了完成每轮用户的指令，研究人员主要考虑：

1．当前轮次的用户指令

2．之前轮次的用户指令（对话历史）

3． PPT文档（环境信息）

4．可使用的API列表作为大模型输入，prompt大模型生成对应的API序列作为解决方案。

图3：一个会话单元中语言模型如何完成一个轮次。（A）用当前的指令、之前的指令（对话历史）、PPT文件内容以及API参考文件作为输入prompt大模型。（B）然后，语言模型生成API序列并执行它，以获取预测的PPT文件。（C）评估预测文件中的属性和位置关系

为了方便大模型处理信息，研究人员提供一个PPT文档读取函数来将多模态文档转化为文字形式的文档内容，以及一个API执行函数来自动执行大模型生成的API序列，从而生成对应的预测PPT文档。

02 评估大模型生成的PPT文档

本文提出PPTX-Match评估系统来评估大模型生成的文档是否正确。

如图3所示，它使用PPTX库来抽取生成的文档中所有的元素，并逐一验证元素间的空间位置关系是否正确，并验证元素的属性内容是否和标签文档的对应内容匹配。

本文的评测系统只评测最终生成的PPT文档，因此允许各种API序列来完成用户指令。

基于这个系统，本文的评测指标分别包括只考虑当前轮次的轮次层面表现和考虑整个单元的单元层面表现。

03 实验结果

本文在3个闭源大模型和6个开源大模型上测试PPTC数据集。进一步的，本文测试计划算法（零样本思维链（Zero-shot CoT）和思维树（ToT）算法）以及PPT内容和API选择算法是否能进一步提升GPT-4模型在PPTC上的表现。

从表1和表2展现出的结果中，可以得出以下结论：

（1）GPT-4是9个大模型中表现最强的模型，在创建新PPT文档任务中它甚至能实现75%的轮次层面正确率。

（2）基于开源大模型（LLaMa-2）的进一步代码预训练（code-LLaMa）和对齐能够进一步提升模型轮次层面表现

表1：9个大语言模型的结果。‘TD-003’是指Text-Davinci-003模型

（3）计划算法和选择算法能够进一步提升GPT-4 2到5个百分点的轮次层面正确率。然而，本文发现，尽管思维树相对零样本思维链花了超过数倍的推断成本，它的表现却并没有明显进一步的提升。

表2：GPT-4和基于GPT-4模型的算法的结果。‘CoT’和‘ToT’分别是思维链和思维树算法

04 三个PPTC上的主要挑战

进一步的，本文分析得出大模型在PPTC上遇到的三个主要的挑战：

错误累计导致大模型单元层面表现糟糕

尽管诸如GPT-4这样的大模型在轮次层面表现较好，但当本文测试大模型在包含多个轮次的单元层次表现时，大模型表现普遍糟糕。

如表1所示，在创建新文档任务中，GPT-4只正确完成了不到百分之23的多轮次单元。

大模型处理长PPT模版的能力欠佳

在PPT文档编辑任务中，大模型需要基于给予的长PPT模板完成用户指令。

图4：创建新的PPT文件任务（任务1）和编辑PPT模板任务（任务2）的分析结果。在子图（a）中，本图展示了涉及图表、表格、图片、位置和纯文本的指令的平均基于轮次的准确度。在子图（b）中，本图展示了GPT-4的四种常见错误的比例。

然而，如表1所示，即使是GPT-4，也只实现了百分之38的轮次正确率，只完成了6%的多轮次单元。如图4（b）所示，对文档的误解成为编辑任务的主要错误原因。

多模态指令提高了任务难度

如图4（a）所示，大模型在处理图表，表格，图像，空间位置相关的指令上的表现远不如处理只涉及纯文本操作的指令表现，特别是涉及到移动空间位置的指令。

如图4（b）所示，糟糕的空间位置感知成为创建新文档任务的主要错误原因。

05 总结

1．本文提出了PowerPoint任务完成评估测试（PPTC），用于衡量在 PowerPoint 官方软件中的语言模型的任务完成性能。这一基准测试包含了279个多轮会话单元，涵盖了复杂的多模式环境中的数百个多模式指令。

2．本文提出了PPTX-Match评估系统，用于自动测量语言模型在PPTC中的性能。本文测试了3个闭源语言模型和6个开源语言模型，发现GPT-4是所有语言模型中性能最强的。

3．本文进一步发现了三个关键的错误因素：会话中的错误累积、长的PPT模板处理和多模态感知。这些发现为未来的语言模型和基于语言模型的agent系统提出了重要的挑战。

Tags：多模态点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

钉钉AI升级多模态：能根据图片识人、翻译、创作、多轮问答

新浪科技讯 3月28日午间消息，钉钉AI助理迎来升级，上线图片理解、文档速读、工作流等产品能力，探索多模态、长文本与RPA技术在AI应用的落地。基于阿里通义千问大模型，升级后的钉...【详细内容】

2024-03-28　　Search: 多模态点击:(12)　　评论:(0)　　加入收藏

苹果再发多模态论文！陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗？

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）全面发力AI的苹果，再出新研究！随着人工智能技术的发展，我们熟悉的“Hey Siri”或将成为历史。苹果团队最新出炉的论文《利用...【详细内容】

2024-03-26　　Search: 多模态点击:(7)　　评论:(0)　　加入收藏

全面转向生成式AI，苹果推出300亿参数多模态大模型

相较于英伟达、微软等大型科技股，苹果今年的表现令人失望不已，股价年内跌逾10%，且失去了“全球市值最高公司”的宝座。背后原因很简单，苹果在这场人工智能(AI)竞赛中落伍了。为...【详细内容】

2024-03-18　　Search: 多模态点击:(12)　　评论:(0)　　加入收藏

多模态AI大模型赋能移动机器人！受益上市公司梳理

财联社3月3日讯（编辑若宇）移动机器人赛道近期关注度逐步上升。GTC 2024将于3月18至21日在加州圣何塞会议中心举行，英伟达计划发布机器人领域最新突破成果。英伟达大概率是通过...【详细内容】

2024-03-04　　Search: 多模态点击:(36)　　评论:(0)　　加入收藏

多模态RAG应用：跨越文本与图片的智能交互

近年来，多模态RAG（Retrieval-AugmentedGeneration）应用的兴起引发了人们对人工智能技术发展方向的广泛关注。传统的RAG应用主要基于文本的输入和输出，而随着GPT4-V的发布，多模态R...【详细内容】

2024-01-29　　Search: 多模态点击:(66)　　评论:(0)　　加入收藏

简易百科：什么是多模态大模型？

简易百科：什么是多模态大模型？随着人工智能技术的不断发展，多模态大模型作为一种新型的机器学习技术，逐渐成为人工智能领域的热点话题。多模态大模型能够处理多种媒体数据，如文本...【详细内容】

2024-01-29　　Search: 多模态点击:(174)　　评论:(0)　　加入收藏

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型...【详细内容】

2024-01-29　　Search: 多模态点击:(71)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: 多模态点击:(118)　　评论:(0)　　加入收藏

被高估的Pika，被低估的多模态AI

原文来源：甲子光年作者｜苏霍伊编辑｜王博图片来源：由无界 AI生成多模态 AI 正处于爆发前夜。从 GPT-4V 的“惊艳亮相”，到 AI 视频生成工具 Pika 1.0 的“火爆出圈”，再到谷歌 Gemi...【详细内容】

2023-12-12　　Search: 多模态点击:(193)　　评论:(0)　　加入收藏

多模态大模型活跃，A股探底止跌

每经记者：刘明涛每经编辑：彭水萍今日，A股低开后下探，三大指数盘初均跌逾1%，截至上午收盘，上证指数跌0.56%报2952.85点，深证成指跌0.66%报9490.41点，创业板指跌0.43%报1884.01点，市场...【详细内容】

2023-12-11　　Search: 多模态点击:(89)　　评论:(0)　　加入收藏

▌简易百科推荐

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(0)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI“复活”成产业链：成	你的自拍和聊天记录，正
手机还装不下AI的梦想	中国修订基础设施等特
金店跑路，存金难兑黄	花10万买的数字藏品成
超30城支持！房子“以旧	耶伦记者会：访华取得三

站内最新

栏目相关

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

· 把GPT变成算命大师需要几步？

· Sora开启文生视频新纪元影视游戏产业加速变局求突破

· 微软新 AI 专利获批：帮老板追踪、评估你的工作表现

· 关于AI人工智能在写作方面有哪些优势？

· Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

· 8款AI视频生成产品实测，谁将成为中国Sora？

站内热门