您当前的位置：首页 > 电脑百科 > 人工智能

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

时间：2024-01-02 15:43:44 来源：新智元作者：

+ 加入收藏

新智元报道

编辑：编辑部

【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗？最近，斯坦福和Meta的学者发文为Gemini正名。

Gemini的推理能力，真的比GPT-4弱吗？

此前，谷歌憋出的重磅复仇神器Gemini Pro，被发现在常识推理任务中落后于AI target=_blank class=infotextkey>OpenAI的GPT模型。

之后又有CMU发布的论文和实验，证明Gemini Pro的很多能力都略微落后于GPT-3.5 Turbo。

不过最近，斯坦福和Meta的学者为Gemini洗清了这一「冤屈」。

他们发现，这种基于有限数据集（HellaSWAG）的评估，并不能完全捕捉到Gemini真正的常识推理潜力。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

论文地址：https://arxiv.org/abs/2312.17661

而在新测试集中，Gemini的推理能力比之前强很多！

Gemini的真正潜力

斯坦福和Meta的研究人员表示，以前的基于有限数据集的评估，对于Gemini不够公平。

这次，研究人员设计了需要跨模态整合常识知识的任务，以对Gemini在复杂推理任务中的表现进行彻底的评估。

研究人员对12个常识推理数据集进行了全面分析，从一般任务到特定领域的任务。

在其中的4个LLM实验和2个MLLM实验中，研究者证明了Gemini具有目前相当强的常识推理能力。

研究者对于当前流行的四大模型——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo进行了评估，

他们发现，总体而言，Gemini Pro的性能和GPT-3.5 Pro相当，准确性上落后于GPT-4 Turbo。

实验数据集

实验中采用了12个与不同类型的常识推理相关的数据集，包括11个基于语言的数据集和一个多模态数据集。

基于语言的数据集包括三大类常识推理问题：

1.一般推理和情境推理：CommonsenseQA，侧重于一般常识知识；Cosmos QA，强调语境理解叙事；αNLI，引入演绎推理，包括推断最合理的解释；HellaSWAG，以上下文事件序列的推理为中心。

2.专业推理和知识推理：TRAM，测试关于时间的推理；NumerSense，侧重于数值理解；PIQA，评估物理相互作用知识；QASC，处理与科学相关的推理；RiddleSense，通过谜语挑战创造性思维。

3.社会和道德推理：Social IQa，测试对社会互动的理解；ETHICS，评估道德和伦理推理。

对于多模态数据集（视觉和语言），这里选择VCR，一个用于认知水平视觉理解的大规模数据集。

对于包含多个任务的TRAM和ETHICS等数据集，研究人员提取了实验的常识推理部分。

实验中采用准确性作为所有数据集的性能指标。下表给出了数据集的概述以及示例问题。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

模型

采用最流行的四个大模型：开源的Llama-2-70b-chat和闭源的Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

每个模型都使用相应的API密钥进行访问：通过google Vertex AI访问Gemini，通过OpenAI API访问GPT，通过DeepInfra访问Llama2。

对于多模态数据集，实验中考虑了GPT-4V（API中的gpt-4-vision-preview）和 Gemini Pro Vision（API中的gemini-pro-vision）。

考虑到API成本和速率的限制，研究人员从每个基于语言的数据集的验证集中随机选择了200个示例，从VCR数据集的验证集中随机选择了50个示例。

对于所有评估，在模型响应生成期间采用贪婪解码（即温度=0）。

提示

在评估基于语言的数据集时，研究人员采用了两种提示设置：零样本标准提示（SP），旨在衡量模型在语言环境中的固有常识能力，以及少样本思维链（CoT）提示，用于观察模型性能的潜在增强。

对于多模态数据集，利用零样本标准提示，来评估MLLM的端到端视觉常识推理能力。

结果

整体的性能比较结果如下表所示：

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

从模型的角度来看，GPT-4 Turbo的平均表现最好。在零样本学习中，它比第二名的Gemini Pro高出7.3%，在少样本学习中优势更大（9.0%）。

而Gemini Pro的平均准确率略高于 GPT-3.5 Turbo（0-shot，SP下高1.3%，k-shot，CoT下高1.5%）。

关于提示方法，CoT提高了所有数据集的性能，在 CommonsenseQA、TRAM和Social IQa等数据集中有明显的收益。

下表是在多模态VCR数据集上的性能比较：

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

VCR的三个子任务分别为：Q → A，根据视觉上下文生成问题的答案；QA→R，要求模型为给定的答案提供基本原理；Q → AR，既要回答问题，又要用适当的理由来证明回答的合理性。

将11个基于语言的数据集分为三组，在图1中展示了每组中每种设置的性能。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

研究结果表明，GPT-4 Turbo在所有类别的性能方面始终领先。

Gemini Pro和GPT-3.5 Turbo的性能相当；不过，Gemini Pro在三个类别中的两个类别中，略胜于GPT-3.5 Turbo。

总体而言，所有模型在处理社会和道德推理数据集方面，都表现出强大的能力。

然而，它们在一般推理和语境推理任务上的表现，存在显著差异。

这也表明，它们对更广泛的常识原则，及其在不同背景下的应用理解，存在潜在差距。

而在专业和知识推理类别，特别是在时间和基于谜语的挑战领域，模型在处理复杂时间序列、破译谜语所需的抽象和创造性思维能力上，都表现出了缺陷。

关于多模态数据集，图2详细介绍了GPT-4V和GeminiPro Vision在不同问题类型上的性能比较。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

我们可以看到，在最后一个关于时间类别的问题上，GeminiPro Vision实现了反超。

MLLM的推理正当性

为了评估MLLM的推理能力，尤其是不仅提供正确答案，还能就常识问题提供合理且基于上下文推理的能力，研究者采用了系统抽样方法。

对于评估四个LLM的11个基于语言的数据集，研究者随机选择了30个回答正确的问题，和30个回答错误的问题。

如果数据集提供的错误答案少于30 个，研究者就会包含进所有可用的错误答案，以确保分析的全面性。

选择这些问题后，他们会让每个模型解释：「问题答案背后的基本原理是什么?」然后手动检查模型提供的推理过程，并根据其逻辑合理性和与问题的相关性被判为True或False。

图3显示，GPT-4 Turbo在正确和错误的答案上，都显示出先进的推理机制，即使最终答案不准确，它也有保持逻辑连贯的能力。

另外，Gemini Pro也表现出了值得称赞的推理能力，提供了全面的常识推理方法。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

下图展示了Gemini Pro和GPT-3.5的两个真实示例，展现了正确答案和正确理由，以及错误答案和错误理由的情况。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

示例问题来自QASC数据集，红色粗体为正确答案。在上图中，Gemini Pro表现出有条不紊的推理，仔细考虑所有选项以得出最合乎逻辑的结论。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

相反，由于GPT-3.5 Turbo对非常规逻辑的倾向，导致了富有想象力但不正确的答案。

这表明不同模型应对常识推理任务的不同策略，有自己的独特能力和局限性。

Gemini Pro的常识推理能力

一般常识（CommonsenseQA)

在使用CommonsenseQA数据集的一般常识评估中，有这样一道示例问题：「当你是陌生人时，人们会怎样?」

A.火车 B.奇怪 C.人类 D.愚蠢 E.危险

Gemini Pro选择了B。

它的推理过程也值得注意：它认识到，虽然所有选项都和「陌生人」的概念相关，但只有「奇怪」准确概括了问题的中立和开放性本质。

这个选择，凸显出了Gemini Pro解释和应用一般常识知识的能力。

时间（TRAM）

TRAM数据集的时间常识评估中的示例问题：「他还承诺会来找他。」

他需要多长时间才能「来到他身边」？

A.100年 B.一分钟内 C.几个小时

由于缺乏足够的背景信息，特别是关于所涉及的身份和「来到」的含义，Gemini Pro无法提供明确的答案。

这说明了，模型需要依赖特定的上下文信息，来做出准确的时间判断。

在现实世界的信息传播中，模糊或不完整的信息，也会造成这种局限性。

社交(Social IQa)

在使用Social IQa数据集评估GeminiPro在社会常识推理方面的表现时，出现了一个有趣的场景: 人们一直欺负在Sasha，Sasha报复了回去，接下来人们会做什么？

A.按Sasha说的去做 B.报仇 C.逃离Sasha

正确答案是C，但Gemini Pro的选择却显得很有洞察力。

它选择了B，理由是Sasha的行动很可能点燃了人们复仇的欲望。

这一回应表明，Gemini Pro对于社会动态和情感动机有了细致入微的理解。

Visual（VCR）

在VCR数据集中，研究者分析了Gemini Pro Vision对涉及人身安全和潜在危险场景的响应。

如果此时4号推了3号，会发生什么？

Gemini Pro Vision回答：3号会掉下悬崖，危及生命。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

这个结果表明，Gemini Pro Vision已经能够做出视觉常识推理，分析视觉场景并预测这些场景中动作的潜在后果。

这表明模型已经掌握了空间关系和物理后果，具备了类似人类认知的复杂视觉信息能力。

作者介绍

Yuqing Wang目前是斯坦福大学的博士后研究员。

此前，她在明尼苏达大学获得学士学位，在在加利福尼亚大学圣芭芭拉分校获得博士学位。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

Yun Zhao目前是Meta的研究员，研究方向是机器学习（包括深度学习与强化学习）的应用、人工智能与数据挖掘。

此前，他在清华大学获得硕士学位，并且同样在加利福尼亚大学圣芭芭拉分校获得博士学位。

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

参考资料：

https://arxiv.org/abs/2312.17661

Tags：Gemini 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

如何免费访问和使用Gemini API？

Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本，获得几乎完美的答案。我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各...【详细内容】

2024-02-19　　Search: Gemini 点击:(59)　　评论:(0)　　加入收藏

从Google Gemini到OpenAI Q*：生成式AI研究领域全面综述

新智元报道来源：专知【新智元导读】这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向，并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域...【详细内容】

2024-01-09　　Search: Gemini 点击:(161)　　评论:(0)　　加入收藏

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

新智元报道编辑：编辑部【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗？最近，斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力...【详细内容】

2024-01-02　　Search: Gemini 点击:(71)　　评论:(0)　　加入收藏

谷歌创始人亲自给Gemini写代码，很核心那种

西风发自凹非寺量子位 | 公众号 QbitAI身价1050亿美元，每天还在亲自动手敲代码！？就连谷歌最新大招Gemini大模型的核心贡献者名单中，也有他的名字。没错，他就是谷歌联合创始人谢...【详细内容】

2023-12-26　　Search: Gemini 点击:(106)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: Gemini 点击:(117)　　评论:(0)　　加入收藏

谷歌Gemini“抄袭”百度文心一言？AI训练数据陷入大难题

谷歌过于心急，Gemini推出不到半月，就遭遇两次“危机”。美东时间12月6日，谷歌推出了迄今为止规模最大，能力最强的大模型Gemini。其原生多模态的能力，通过一条约6分钟的演示视频，展...【详细内容】

2023-12-21　　Search: Gemini 点击:(124)　　评论:(0)　　加入收藏

谷歌Gemini自曝用百度文心一言训练

作者：匡达界面新闻记者 |李京亚赵一帆临近欧美圣诞假期，就在业界吐槽GPT变懒之际，谷歌这边出现了更大纰漏。12月18日，有微博大V@阑夕及《AI研究局》等自媒体爆出，在对谷歌Gemini...【详细内容】

2023-12-18　　Search: Gemini 点击:(95)　　评论:(0)　　加入收藏

Gemini 开启大模型路线之争，新战场将“数流成河”

谷歌上演了一出“ 那些没有杀死我的，将使我更强大”。互联网高速发展了几十年，但全世界超过10亿用户的业务或者应用一共没超过20个，而谷歌拥有6个。在绝大很多网民心目中，Goog...【详细内容】

2023-12-15　　Search: Gemini 点击:(88)　　评论:(0)　　加入收藏

一个GPT的幽灵在Gemini上空徘徊

原文来源：硅基立场图片来源：由无界 AI生成每次Google在生成式人工智能领域祭出大招，都能让人感到一种隐秘且巨大的情绪力量：隐忍、不甘与较量。在5月的Google I/O上，Google发布Pa...【详细内容】

2023-12-11　　Search: Gemini 点击:(234)　　评论:(0)　　加入收藏

谷歌Gemini：被神话的多模态和被低估的隐忍

Google最强大的大模型Gemini发布了，陆续读了技术报告和一些评测/分析，周末记录和分享一下：一、几点值得Mark的笔记 Gemini Ultra的得分为90.0%，是第一个在MMLU（大规模多任务语言...【详细内容】

2023-12-11　　Search: Gemini 点击:(86)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(4)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版

站内最新

栏目相关

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

· 把GPT变成算命大师需要几步？

· Sora开启文生视频新纪元影视游戏产业加速变局求突破

· 微软新 AI 专利获批：帮老板追踪、评估你的工作表现

· 关于AI人工智能在写作方面有哪些优势？

· Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

· 8款AI视频生成产品实测，谁将成为中国Sora？

· Sora到底怎么样？第一批试用者这样说！

站内热门