您当前的位置：首页 > 新闻资讯 > 科技

谷歌深夜放复仇杀器Gemini，最强原生多模态史诗级碾压GPT-4！语言理解首超人类

时间：2023-12-07 09:51:09 来源：新智元作者：

+ 加入收藏

谷歌深夜放复仇杀器Gemini，最强原生多模态史诗级碾压GPT-4！语言理解首超人类

　　新智元报道

　　【新智元导读】传说中的Gemini，终于在今天深夜上线了！‘原生多模态’架构，是谷歌的史诗级创举，Gemini也如愿在多个领域超越了GPT-4。这场仗，谷歌必不能输。

　　谷歌的复仇大杀器Gemini，深夜忽然上线！

　　被ChatGPT压着打了整整一年，谷歌选择在12月的这一天，展开最强反击战。

　　多模态Gemini，迄今规模最大、能力最强的谷歌大模型，在文本、视频、语音等多个领域超越了GPT-4，是真正的一雪前耻。

　　人类有五种感官，我们所建造的世界、所消费的媒体，都是以这样的方式所呈现。

　　而Gemini的出现，就是迈向真正通用的AI模型的第一步！

　　Gemini的诞生，代表着AI模型的巨大飞跃，谷歌所有的产品，都将随之改头换面。

　　塞进多模态模型的搜索引擎、广告产品、Chrome浏览器……这，就是谷歌给我们的未来。

　　多模态的史诗级创新

　　以前，多模态大模型就是将纯文本、纯视觉和纯音频模型拼接在一起，就像OpenAI的GPT-4、DALL·E和Whisper那样。然而，这并不是最优解。

　　相比之下，在设计之初，多模态就是Gemini计划的一部分。

　　从一开始，Gemini就在不同模态上进行了训练。随后，研究人员又用额外的多模态数据进行了微调，进一步提升了模型的有效性。最终，实现了‘无缝’地理解和推理各种模态的输入内容。

　　从结果上来看，Gemini的性能要远远优于现有的多模态模型，而且它的功能几乎在每个领域都是SOTA级别的。

　　而这个最大、最有能力的模型，也意味着Gemini可以用和人类一样的方式理解我们周围的世界，并且吸收任何类型的输入和输出——无论是文字，还是代码、音频、图像、视频。

　　Gemini猜对了纸团在最左边的杯子里

　　google DeepMind首席执行官兼联合创始人Demis Hassabis表示，谷歌一直对非常通用的系统感兴趣。

　　而这里最关键的，就是如何混合所有这些模式，如何从任意数量的输入和感官中收集尽可能多的数据，然后给出同样多样化的响应。

　　DeepMind和谷歌大脑合并后，果然拿出了真东西。

　　之所以命名为Gemini，就是因为谷歌两大AI实验室的合体，另外也一个解释是参考了美国宇航局的Gemini项目，后者为阿波罗登月计划铺平了道路。

　　首次超越人类，大幅碾压GPT-4

　　虽然没有正式公布，但根据内部消息，Gemini有万亿参数，训练所用的算力甚至达到GPT-4的五倍。

　　既然是被拿来硬刚GPT-4的模型，Gemini当然少不了经历最严格的测试。

　　谷歌在多种任务上评估了两种模型的性能，惊喜地发现：从自然图像、音频、视频理解到数学推理，Gemini Ultra在32个常用的学术基准的30个上，已经超越GPT-4！

　　而在MMLU（大规模多任务语言理解）测试中，Gemini Ultra以90.0%的高分，首次超过了人类专家。

　　Gemini是第一个在MMLU（大规模多任务语言理解）上超越人类专家的模型

　　MMLU测试包括57个学科，如数学、物理、历史、法律、医学和伦理，旨在考察世界知识和解决问题的能力。

　　在这50多个不同学科领域中的每一个中，Gemini都和这些领域最好的专家一样好。

　　谷歌为MMLU设定的新基准，让Gemini在回答复杂问题前，能够更仔细地发挥推理能力，相比于仅依赖于直觉反应，这种方法带来了显著提升。

　　在新的MMMU基准测试中，Gemini Ultra也取得了59.4%的高分，这一测试包括了跨越不同领域的多模态任务，这些任务需要深入的推理过程。

　　图像基准测试中，Gemini Ultra的表现也超过了之前的领先模型，而且，这一成就是在没有OCR系统帮助的情况下实现的！

　　种种测试表明，Gemini在多模态处理上表现出了强大的能力，并且在更复杂的推理上也有着极大潜力。

　　详情可参阅Gemini技术报告：

　　报告地址：https：//storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

　　中杯、大杯、超大杯！

　　Gemini Ultra是谷歌迄今为止创建的最强大LLM最大，能够完成高度复杂的任务，主要面向数据中心和企业级应用。

　　Gemini Pro是性能最好的模型，用于广泛的任务。它会为许多谷歌的AI服务提供动力，并且从今天起，成为Bard的支柱。

　　Gemini Nano是最高效的模型，用于设备端任务，可以在Android/ target=_blank class=infotextkey>安卓设备上本地和离线运行，Pixel 8 Pro的用户就能马上体验到。其中，Nano-1的参数为1.8B，Nano-2为3.25B。

　　Gemini最基本的模型能做到文本输入和文本输出，但像Gemini Ultra这样更强大的模型，则可以同时处理图像、视频和音频。

　　不仅如此，Gemini甚至还能学会做动作和触摸这种更像机器人(11.630, 0.02, 0.17%)的功能！

　　以后，Gemini会获得更多的感官，变得更加有意识，更加准确。

　　虽然幻觉问题仍然不可避免，但模型知道的越多，性能就会越好。

　　文本、图像、音频精准理解

　　Gemini 1.0经过训练，可以同时识别和理解文本、图像、音频等各种形式的输入内容，因此它也能更好地理解细微的信息，回答与复杂主题相关的各类问题。

　　比如，用户先是上传了一段非英语的音频，然后又录了一段英语的音频来提问。

　　要知道，一般设计音频的归纳，都是用文字输入prompt。而Gemini却可以同时处理两段不同语言的音频，精准输出所需要的摘要内容。

　　更厉害的是，如果我想做一个煎蛋，不仅可以用语音问Gemini，还可以把手头有的食材拍个照片一并发过去。

　　然后，Gemini就会结合音频中发送的需求，以及配图中的食材，手把手教你该怎么做好一个煎蛋。

　　甚至，每完成一步，都可以拍个照片，而Gemini则可以根据实际进度继续指导下一步该做什么。

　　手癌星人、不会做饭星人都有救了！

　　而且，这项能力还这使Gemini特别擅长解释数学和物理等复杂学科的推理问题。

　　比如，家长想在辅导孩子作业的时候省点事，该怎么办呢？

　　答案很简单，直接拍张图上去，Gemini的推理能力足以解决数学、物理等各类理科问题。

　　针对其中任何一个步骤，都可以追问Gemini来获得更具体的解释。

　　甚至，还可以就出错的点，直接让Gemini输出一个和出错类型相似的题目巩固一下。

　　复杂推理轻松搞定

　　此外，Gemini 1.0具有的多模态推理能力，可以更好地理解复杂的书面和视觉信息。这使得它在发掘埋藏在海量的数据中难以辨别的知识方面具有优越的性能。

　　通过阅读、过滤和理解信息，Gemini 1.0还能够从成千上万的文档中提取出独到的观点，从而助力从科学到金融等众多领域实现新的突破。

　　Alpha Code 2：编码能力超85%人类选手

　　当然，基准测试终究只是测试，对Gemini的真正考验，是想要用它来写代码的用户。

　　写代码，就是谷歌为Gemini打造的杀手级功能。

　　Gemini 1.0模型不仅可以理解、解释和生成世界上最主流的编程语言，比如Python/ target=_blank class=infotextkey>Python、JAVA、C++和Go的高质量代码。同时它能够跨语言工作，并对复杂信息进行推理。

　　从这一点看，Gemini毫无疑问会成为世界领先的编程基础模型之一。

　　两年前，谷歌推出过一款叫做Alpha Code的产品，它也是第一个在编程竞赛中达到具有竞争力水平的AI代码生成系统。

　　而基于定制版的Gemini，谷歌推出了更先进的代码生成系统——Alpha Code 2。

　　在面对不仅涉及编程，还涉及复杂的数学和计算机科学理论等领域的问题时，Alpha Code 2都表现出了卓越的性能。

　　在与初代Alpha Code同样的测试平台上，谷歌的开发人员也对Alpha Code 2进行了测试。

　　结果显示，新模型展现出了显著的进步，解决的问题数几乎是之前Alpha Code的两倍。

　　其中，Alpha Code 2编程的性能超过了85%的人类程序员，相比之下，Alpha Code只超过了约50%的程序员。

　　不仅如此，当人类程序员与Alpha Code 2协作时，人类程序员为代码样例设定特定的要求，Alphacode 2的性能会进一步提升。

　　Alpha Code 2的运作依托于强大的LLM，并结合了专为竞赛编程设计的先进搜索和重排机制。

　　如下图所示，新的模型主要由以下几部分组成：

　　- 多个策略模型，用于为每个问题生成各自的代码样本；

　　- 采样机制，能够生成多样化的代码样本，以在可能的程序解决方案中进行搜索；

　　- 过滤机制，移除那些不符合问题描述的代码样本；

　　- 聚类算法，将语义上相似的代码样本进行分组，以减少重复；

　　- 评分模型，用于从10个代码样本集群中筛选出最优解。

　　详情可参阅Alpha Code 2技术报告：

　　更可靠、更高效、可扩展

　　对谷歌来说同样重要的是，Gemini显然是一个效率更高、更可靠、可扩展的模型。

　　它是在谷歌自己的张量处理单元上训练的，比谷歌以前的模型（如PaLM）运行起来更快、更便宜。

　　开发人员使用了谷歌内部研发的张量处理单元TPU v4和v5e，在AI优化的基础设施上对Gemini 1.0进行了大规模的训练。

　　而可靠、可扩展的训练模型和最高效的服务模型，就是谷歌做出Gemini的重要目标。

　　在TPU上，Gemini的运行速度明显快于早期规模较小、能力较弱的模型。这些定制设计的AI加速器是谷歌大模型产品的核心。

　　要知道，这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play和Android等数十亿用户提供服务。它们还帮助了世界各地的科技公司经济、高效地训练大模型。

　　除了Gemini，谷歌在今天还发布了迄今为止最强大、最高效，并且可扩展的TPU系统——Cloud TPU v5p，专为训练尖端的AI模型而设计。

　　新一代TPU将加速Gemini的发展，帮助开发人员和企业客户更快地训练大规模生成式AI模型，开发出新产品和新功能。

　　Gemini，让谷歌再次伟大？

　　显然，在Pichai和Hassabis看来，Gemini的发布仅仅是一个开始——一个更大的项目即将开启。

　　Gemini是谷歌一直在等待的模式，在OpenAI和ChatGPT接管世界后，Gemini是谷歌探索一年得出的结论。

　　发布‘红色警报’后，谷歌一直在追赶，但两人都表示，不愿意为了跟上步伐而走得太快，尤其是我们越来越接近AGI。

　　Gemini是否会改变世界？最好的情况是，它能帮谷歌在生成式AI竞赛中赶上OpenAI。

　　但劈柴、Hassabis等人似乎都认为，这是谷歌真正伟大的开始。

　　今天发布的技术报告，没有透露架构细节、模型参数或训练数据集。

　　艾伦人工智能研究所前CEO Oren Etzioni说，‘没有理由怀疑Gemini在这些基准上比GPT-4更好，但没准GPT-5会比Gemini做得更好。’

　　打造像Gemini这样的巨量模型，可能需要花费数亿美元，但对于在通过云提供AI占据主导地位的公司来说，最终的回报可能是数十亿甚至数万亿美元。

　　‘这是一场不能失败，必须打赢的战争。’

Tags：Gemini 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

如何免费访问和使用Gemini API？

Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本，获得几乎完美的答案。我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各...【详细内容】

2024-02-19　　Search: Gemini 点击:(59)　　评论:(0)　　加入收藏

从Google Gemini到OpenAI Q*：生成式AI研究领域全面综述

新智元报道来源：专知【新智元导读】这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向，并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域...【详细内容】

2024-01-09　　Search: Gemini 点击:(161)　　评论:(0)　　加入收藏

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

新智元报道编辑：编辑部【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗？最近，斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力...【详细内容】

2024-01-02　　Search: Gemini 点击:(71)　　评论:(0)　　加入收藏

谷歌创始人亲自给Gemini写代码，很核心那种

西风发自凹非寺量子位 | 公众号 QbitAI身价1050亿美元，每天还在亲自动手敲代码！？就连谷歌最新大招Gemini大模型的核心贡献者名单中，也有他的名字。没错，他就是谷歌联合创始人谢...【详细内容】

2023-12-26　　Search: Gemini 点击:(106)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: Gemini 点击:(117)　　评论:(0)　　加入收藏

谷歌Gemini“抄袭”百度文心一言？AI训练数据陷入大难题

谷歌过于心急，Gemini推出不到半月，就遭遇两次“危机”。美东时间12月6日，谷歌推出了迄今为止规模最大，能力最强的大模型Gemini。其原生多模态的能力，通过一条约6分钟的演示视频，展...【详细内容】

2023-12-21　　Search: Gemini 点击:(124)　　评论:(0)　　加入收藏

谷歌Gemini自曝用百度文心一言训练

作者：匡达界面新闻记者 |李京亚赵一帆临近欧美圣诞假期，就在业界吐槽GPT变懒之际，谷歌这边出现了更大纰漏。12月18日，有微博大V@阑夕及《AI研究局》等自媒体爆出，在对谷歌Gemini...【详细内容】

2023-12-18　　Search: Gemini 点击:(95)　　评论:(0)　　加入收藏

Gemini 开启大模型路线之争，新战场将“数流成河”

谷歌上演了一出“ 那些没有杀死我的，将使我更强大”。互联网高速发展了几十年，但全世界超过10亿用户的业务或者应用一共没超过20个，而谷歌拥有6个。在绝大很多网民心目中，Goog...【详细内容】

2023-12-15　　Search: Gemini 点击:(88)　　评论:(0)　　加入收藏

一个GPT的幽灵在Gemini上空徘徊

原文来源：硅基立场图片来源：由无界 AI生成每次Google在生成式人工智能领域祭出大招，都能让人感到一种隐秘且巨大的情绪力量：隐忍、不甘与较量。在5月的Google I/O上，Google发布Pa...【详细内容】

2023-12-11　　Search: Gemini 点击:(234)　　评论:(0)　　加入收藏

谷歌Gemini：被神话的多模态和被低估的隐忍

Google最强大的大模型Gemini发布了，陆续读了技术报告和一些评测/分析，周末记录和分享一下：一、几点值得Mark的笔记 Gemini Ultra的得分为90.0%，是第一个在MMLU（大规模多任务语言...【详细内容】

2023-12-11　　Search: Gemini 点击:(86)　　评论:(0)　　加入收藏

▌简易百科推荐

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(6)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(3)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(4)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　　　新智元　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　　　IT之家　　Tags:Chrome 　点击:(7)　　评论:(0)　　加入收藏

哥伦比亚大学华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

【新智元导读】OpenAI 机器人理解力虽强，却无法进行非语言交流。最近，哥伦比亚大学华人团队打造了全新的机器人 Emo，不仅可以提前预测和模拟人类表情，还可以进行眼神交流。此前，...【详细内容】

2024-04-01　　　　IT之家　　Tags:哥伦比亚　点击:(17)　　评论:(0)　　加入收藏

谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录

IT之家 3 月 28 日消息，谷歌近日对其账户登录页面进行了重大更新，现在能够在用户登录谷歌账户时，使用 Windows Hello 作为身份验证方法。使用通行密钥，用户将不再局限于使用密码...【详细内容】

2024-03-29　　　　IT之家　　Tags:谷歌服务　点击:(15)　　评论:(0)　　加入收藏

GPT商店热度不尽人意仅用在写论文和炒股票上较受欢迎

财联社3月28日讯（编辑赵昊）今年1月，OpenAI推出了定制聊天机器人商店“GPTs”，以期为业务增添新的动力。但两个多月后，GPTs的吸引力仍然有限，很难达到公司CEO山姆·奥尔特曼...【详细内容】

2024-03-29　　　　财联社　　Tags:GPT 　点击:(13)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版

站内最新

栏目相关

· 谷歌搜索史上最大变革！考虑对AI搜索收费

· 为训练AI，OpenAI等科技巨头花式淘数据

· 当“机器人”有了“AI大脑” 人形机器人时代来了吗

· 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

· 量子计算会和经典计算一样融入人们的日常生活

· ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

· 谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

· 哥伦比亚大学华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

· 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录

· GPT商店热度不尽人意仅用在写论文和炒股票上较受欢迎

· 距实现全球安全量子通信更近一步：量子点源产生近乎完美纠缠光子对

· 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API

· 马斯克脑机接口再造奇迹：瘫痪小伙意念玩赛车击败正常人

· 国家数据局局长刘烈宏：充分发挥数据要素价值培育新质生产力

· 谷歌Chrome巨变：第三方Cookie的终结将重塑互联网格局

· 百度+苹果，“AI手机元年”真的来了？

· 百度AI“咬”了一口苹果大模型商用有戏了？

· 大地磁暴或将出现，有何影响？

· 大地磁暴上热搜！对普通人有何影响？多地或能看到极光

· 互联网大厂，集体“围剿”Kimi

站内热门