您当前的位置：首页 > 电脑百科 > 人工智能

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

时间：2023-12-22 13:12:23 来源：量子位作者：

+ 加入收藏

量子位 | 公众号 QbitAI

谷歌扳回一局！

在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：

在37个视觉理解任务上，Gemini-Pro表现出了和GPT-4V相当的能力。

在多模态专有基准MME上，Gemini-Pro的感知和认知综合表现则直接获得了1933.4的高分，超越GPT-4V（1926.6）。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

此前，CMU测评发现Gemini-Pro的综合能力居然和GPT-3.5差不多。

现在，在多模态这个一大主推的卖点上，Gemini-Pro可算是扳回一局。

那么具体如何？

测评报告一共128页，咱们就挑重点来看。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

Gemini-Pro的首份多模态能力报告来了

这份测评主要是对Gemini-Pro的视觉理解能力进行评估。

一共涵盖基础感知、高级认知、挑战性视觉任务和各种专家能力四大领域，在37个细分任务项上进行定性比较。

定量评估则在专为多模态大语言模型专门设计的评测基准MME上展开。

首先来看定量测试结果。

MME上综合表现比GPT-4V强

MME基准包含两大类任务。

一个是感知，涵盖目标存在性判断、物体计数、位置关系、颜色判断、OCR识别、海报识别、名人识别、场景识别、地标识别和艺术品识别等。

一个是认知，涵盖常识推理、数值计算、文本翻译和代码推理等。

结果如下：

可以看到Gemini-Pro和GPT-4V可谓“各有所长”。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

而计分显示，Gemini-Pro的总分为1933.4，比GPT-4V（1926.6）要高那么一点点。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

具体来看：

1、Gemini-Pro在文本翻译、颜色/地标/人物识别、OCR等任务中表现突出；

2、GPT-4V在名人识别任务上的得分为0，主要是因为拒绝回答名人相关的问题；

3、无论是Gemini还是GPT-4V在位置识别任务上表现都不佳，表明他们对空间位置信息不敏感；

4、开源模型SPHINX在感知任务上与GPT-4V以及Gemini平齐甚至更优，但认知和两者有较大差距。

下面就是四大项任务上的定性结果了。

基础感知

感知能力直接影响模型在高阶任务中的能力，因为它决定了模型获取和处理原始视觉输入的准确性和有效性。

报告中分别测试了模型的对象级感知能力、场景级感知能力和基于知识的感知能力。

具体一共10个细分任务：

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

鉴于篇幅有限，我们在此只展示其中5个：

1、空间关系

都不分左右。但GPT-4V可以通过上下文少样本学习这项任务，然后做出正确回答。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

2、物体计数

简单样例整体还OK，但复杂一点的全军覆没。不过在数NBA篮球运动员时，Gemini-Pro的答案已经相当接近了（正确为42个）。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

3、视觉错觉

左侧样例中，两个梨实际上具有相同的亮度。Gemini Pro正确识别，而GPT-4V和SPHNIX被欺骗。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

4、场景理解

模型都能够描绘场景中的关键视觉元素。相比之下，GPT-4V显示出优越的性能，描述更加详细，并且幻觉的实例也更少。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

5、视频场景理解

从视频中抽取三个时刻的关键帧，Gemini Pro能够将不同帧的信息整合成一个连贯的场景描述。

而GPT-4V只是逐帧描述图像的内容。相比之下，SPHNIX的描述并没有表现出对图像序列的全面理解。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

高级认知

这类任务需要模型进行深入的推理、解决问题和决策。

在此，报告中分别测试了模型的富含文本的视觉推理能力、抽象视觉推理能力、解决科学问题能力、情感分析能力、智力游戏能力。具体包括13项细分任务，同样限于篇幅我们只展示其中几项。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

1、代码生成

将结构化视觉内容转换为相应的代码是多模态大模型的一项重要技能，在此分别测试了模型识别公式生成LaTex代码和识别网页生成html代码的能力。

Gemini Pro和GPT-4V在公式识别上表现出更好的结果，但仍然会错误识别一些小字符或符号。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

三个模型的识别网页生成相应HTML代码的能力仍然存在很大的改进空间。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

2、抽象视觉刺激

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。GPT-4V展示了最好的抽象性能，提供了对象如何由形状组成的详细描述。Gemini Pro能识别一些简单的抽象模式。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

3、图像情感分析

模型都可以很好地描绘视图，并提供其中可能的情感。GPT-4V观察是中立的，强调情绪是主观的，同时给出了更全面的分析。Gemini Pro倾向于直接输出情感偏好。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

4、情感调节输出

情感调节输出是让多模态大模型描述以预定义情感为条件的视觉上下文。

虽然Gemini Pro和GPT-4V能够正确地将相应的情感注入到生成的文本中，但它们都遇到了幻觉问题。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

5、数独游戏

如果仅以图像作为输入，尽管Gemini Pro尝试在输出矩阵内提供答案，但无法正确识别空白位置，而GPT-4V和SPHNIX则无法进行第一步光学字符识别。此外，给定相应的文本输入，Gemini Pro和GPT-4V都可以给出正确的答案。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

挑战性视觉任务

评估多模态大模型在超出标准视觉问答范围的各种具有挑战性的视觉任务中的性能。

需要模型具有深厚的视觉感知和理解能力，评估这类表现将有助于深入了解模型在多领域应用的可行性。

报告中分别测试了模型在图像视觉任务和时序视觉任务中的性能。具体包括以下7个细分任务：

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

在此我们展示3个。

1、指称表达式理解

Gemini Pro和GPT-4V都能够识别指称对象的大致位置，但它们很难提供精确的坐标和框大小。而SPHNIX展示了提供引用对象的准确位置和大小的能力。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

2、目标跟踪

Gemini Pro和GPT-4V都能够描绘出要跟踪的目标的细节，但它们随后两帧图像中提供了错误的边界框。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

3、视觉故事生成

任务要求模型完全理解图像中的信息，并在生成的故事中对其进行逻辑组织。

Gemini Pro和SPHNIX提供了连贯的故事，但却和没有十分贴近漫画剧情。

GPT-4V为每个插图提供了精确的描述，却未能根据任务要求将它们编织成一个有凝聚力的故事。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

各种专家能力

专家能力衡量多模态大模型将其学到的知识和技能应用于不同专业领域的泛化能力。除了上述的感知和认知任务外，多模态大模型在专门和独特场景下的鲁棒性通常具有更实际的参考意义。也是7个细分任务：

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

在此我们同样展示3个：

1、缺陷检测

缺陷检测需要高精度和对细节的关注。对于缺陷明显的图像，模型都可以提供正确答案，其中GPT-4V输出更详细的原因和描述。

对于下图中的螺纹损坏的样例，Gemini Pro给出了过于笼统的答案，SPHNIX错误地描述了外观，而GPT-4V给出了标准答案。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

2、经济分析

报告展示了两个用于回答问题的股价走势图。Gemini Pro擅长专家级金融知识，能够给出正确答案。GPT-4V由于安全风险而没有给出明确答案。SPHNIX由于缺乏相关训练数据无法理解此类问题。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

3、机器人运动规划

机器人规划要求机器人能够确定如何在给定情况下采取行动以实现特定目标。

Gemini Pro和GPT-4V都可以提供有条理且详细的步骤，并且GPT-4V似乎比Gemini Pro给出了更合理的决定，例如电池的安装顺序，但SPHNIX无法完成手机的组装，说明其泛化能力有限。

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

总结评价：都是“半斤八两”

鉴于其卓越的多模态推理能力，Gemini确实是GPT-4V的有力挑战者。

在大多数情况下，与GPT-4V相比，Gemini的回答准确性具有竞争力，并展示了不同的回答风格和偏好。

GPT-4V倾向于生成对感知任务更详细的描述，并为认知任务提供深入的分析和逐步的中间推理，而Gemini更喜欢对答案提供直接而简洁的回应，这有助于用户快速找到相关信息。

不过，两个模型也存在一定的共性问题，比如空间感知能力不强，复杂OCR和抽象视觉理解不理想，推理过程可能存在不自洽结果，对提示设计的鲁棒性不足……在很多情况下仍然陷入困境。

所以，从现阶段成果来看，两者都点“半斤八两”的意思。

作者最后的结论就是：

大模型的多模态能力总的来说都还有很长的路要走。

具体往哪走？

三个方面：视觉表示编码（细粒度外观、空间关系感知）、多模态对齐（减轻幻觉、OCR准确性）以及模型推理能力（定量处理、逻辑一致性）。

关于Gemini Pro与GPT-4V、SPHNIX的更多评估比较，请查看原论文。

链接：

[1]https://arxiv.org/pdf/2312.12436.pdf

[2]https://Github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

— 完—

Tags：Gemini 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

如何免费访问和使用Gemini API？

Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本，获得几乎完美的答案。我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各...【详细内容】

2024-02-19　　Search: Gemini 点击:(59)　　评论:(0)　　加入收藏

从Google Gemini到OpenAI Q*：生成式AI研究领域全面综述

新智元报道来源：专知【新智元导读】这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向，并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域...【详细内容】

2024-01-09　　Search: Gemini 点击:(161)　　评论:(0)　　加入收藏

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

新智元报道编辑：编辑部【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗？最近，斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力...【详细内容】

2024-01-02　　Search: Gemini 点击:(71)　　评论:(0)　　加入收藏

谷歌创始人亲自给Gemini写代码，很核心那种

西风发自凹非寺量子位 | 公众号 QbitAI身价1050亿美元，每天还在亲自动手敲代码！？就连谷歌最新大招Gemini大模型的核心贡献者名单中，也有他的名字。没错，他就是谷歌联合创始人谢...【详细内容】

2023-12-26　　Search: Gemini 点击:(106)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: Gemini 点击:(117)　　评论:(0)　　加入收藏

谷歌Gemini“抄袭”百度文心一言？AI训练数据陷入大难题

谷歌过于心急，Gemini推出不到半月，就遭遇两次“危机”。美东时间12月6日，谷歌推出了迄今为止规模最大，能力最强的大模型Gemini。其原生多模态的能力，通过一条约6分钟的演示视频，展...【详细内容】

2023-12-21　　Search: Gemini 点击:(124)　　评论:(0)　　加入收藏

谷歌Gemini自曝用百度文心一言训练

作者：匡达界面新闻记者 |李京亚赵一帆临近欧美圣诞假期，就在业界吐槽GPT变懒之际，谷歌这边出现了更大纰漏。12月18日，有微博大V@阑夕及《AI研究局》等自媒体爆出，在对谷歌Gemini...【详细内容】

2023-12-18　　Search: Gemini 点击:(95)　　评论:(0)　　加入收藏

Gemini 开启大模型路线之争，新战场将“数流成河”

谷歌上演了一出“ 那些没有杀死我的，将使我更强大”。互联网高速发展了几十年，但全世界超过10亿用户的业务或者应用一共没超过20个，而谷歌拥有6个。在绝大很多网民心目中，Goog...【详细内容】

2023-12-15　　Search: Gemini 点击:(88)　　评论:(0)　　加入收藏

一个GPT的幽灵在Gemini上空徘徊

原文来源：硅基立场图片来源：由无界 AI生成每次Google在生成式人工智能领域祭出大招，都能让人感到一种隐秘且巨大的情绪力量：隐忍、不甘与较量。在5月的Google I/O上，Google发布Pa...【详细内容】

2023-12-11　　Search: Gemini 点击:(234)　　评论:(0)　　加入收藏

谷歌Gemini：被神话的多模态和被低估的隐忍

Google最强大的大模型Gemini发布了，陆续读了技术报告和一些评测/分析，周末记录和分享一下：一、几点值得Mark的笔记 Gemini Ultra的得分为90.0%，是第一个在MMLU（大规模多任务语言...【详细内容】

2023-12-11　　Search: Gemini 点击:(86)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(4)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版

站内最新

栏目相关

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

· 把GPT变成算命大师需要几步？

· Sora开启文生视频新纪元影视游戏产业加速变局求突破

· 微软新 AI 专利获批：帮老板追踪、评估你的工作表现

· 关于AI人工智能在写作方面有哪些优势？

· Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

· 8款AI视频生成产品实测，谁将成为中国Sora？

· Sora到底怎么样？第一批试用者这样说！

站内热门