谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

时间：2023-12-08 11:27:06 来源：作者：极果

没想到，拥有“AI”后的世界已经发展成这样了！

自从去年ChatGPT面世后，今年5月谷歌也坐不住了，宣布要搞AI大模型，但由于种种原因，一直等到大半年后的今天，才正式发布了新一代大语言模型“Gemini”。

谷歌出手，就是不同凡响，虽然步子慢了，但成果很“硬核”。在官方演示中，Gemini可以非常自如地在图像、音频、视频各模态之间转换，其能力也让人刮目相看，例如根据一张地图和表情符号，就能设计出“猜国家”游戏；或者根据文字和图像，猜出是哪部电影......

这还不够，它还会教人念中文并区分四个声调，甚至能手把手教你做饭，有种上班是老师，下班秒变“小厨师”的感觉，任谁看了不直呼一句“厉害”！

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

难怪谷歌官方称，Gemini是谷歌迄今为止“最大、最全能的AI模型”，它能够进行更复杂的推理，理解更加细微的信息，甚至像人一样理解周围的世界。换句话说，它比之前任何技术都要牛！废话不多说，下面我们就来看看，这个AI大模型有多厉害。

长话短说，谷歌将Gemini定义为一款“原生多模态”模型！直白点解释就是，Gemini一出厂就是“全科发展”，多种感官在模型内统一学习，而不是单独学习再拼接到一起。

这里拿出OpenAI做典型，OpenAI的GPT-3.5一开始是纯文字大语言模型，直到GPT-4才安排了视觉等多模态能力，这种组装拼接吧，就好比先学了语文再学数学，极大可能带来“偏科”问题。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

但全面发展的Gemini就不同，它从第一天起就设计成原生多模态结构，相当于“所有科目一起学”，用谷歌的话讲，它能无缝理解、操作不同类型的信息，包括文本、代码、音频、图像和视频等，不需要额外转换，各种模态的性能也更为平衡。

这里再举个简单的例子：同样是要理解图像信息，像GPT-4这样的非原生多模态结构模型，需要先借助OCR（光学字符识别技术）先“认出来”图里是什么——转成文本，再放到语言模型中进行语义理解。而Gemini能基于图像马上进行理解，这种端到端的理解，不会让信息在“转录”过程中丢失。

这样一对比，想必大家就都懂了。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

看来，谷歌称Gemini超越了GPT-4，还真不是瞎吹牛！值得一提的是，谷歌这次一口气提供了Gemini的三个尺寸模型：Gemini Ultra、Gemini Pro、Gemini Nano ，并分别对其进行了优化。

其中，Gemini Ultra版本功能最强大，能够完成高度复杂的任务，主要面向数据中心和企业级应用；Gemini Pro则是性能最好的模型，可以执行多种任务，将通过谷歌的类ChatGPT聊天机器人Bard，为众多谷歌AI服务提供支持，加持谷歌的Gmail、Maps Docs和YouTube等服务。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

最后就是Gemini Nano，这是最高效的模型，用于设备端任务，可以在Android/ target=_blank class=infotextkey>安卓设备上本地和离线运行。按照谷歌所说，该模型将首次内置于谷歌手机Pixel 8 Pro上，支持录音自动摘要、键盘智能回复两项功能，未来预计将更多功能置于安卓手机离线运行。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

键盘自动生成回复语▲

整体来看，Gemini的多样化设计，使其能够在各种设备上运行，从手机到大型数据中心均适用，其优势显而易见。话虽这么说，但纸上谈兵可没有信服力！

既然是被拿来“硬刚”GPT-4的模型，Gemini当然少不了经历一番测试。

根据内部消息，在推出Gemini之前，谷歌就对该模型进行过一系列标准测试。结果显示，性能上，Gemini训练所用的算力达到GPT-4的五倍，非常出色。其中，特别是在语言理解、推理、数学和编程测试中表现更佳。尤其是Gemini Ultra，在32个常用的学术基准的30个上，已经超越GPT-4。

并且Gemini Ultra在大规模多任务语言理解任务上，得分高达90.0%，是首个超越人类专家的模型。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

谷歌DeepMind CEO Demis Hassabis表示：“这是我们目前规模最大，性能最强的大模型，Gemini可以像我们一样，理解我们周围的世界。”确实，对于普通人而言，Gemini也大有用处，它可以同时识别和理解文本、图像、音频等各种形式的输入内容，因此能更好地理解细微的信息，回答与复杂主题相关的各类问题。

具体来看，对于图像理解方面，根据谷歌在发布会放出的演示视频，Gemini是玩“你画我猜”的一把好手，不仅能准确地描绘出测试者在纸上画出的图形，还能根据测试者画出的轮廓，猜测出她绘制的是什么东西。

此外，它还能根据给出的文字和图像，正确猜出所指电影的名字；又或者根据所给的服装图像，告诉你使用场景，甚至为这套搭配取名。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

甚至它还能把图像，转变成代码......

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

而在音频理解上，Gemini也是一把好手，例如用户上传了一段非英语的音频，然后又录了一段英语的音频来提问。这听起来似乎有点麻烦，但Gemini却可以轻松解决，它能同时处理两段不同语言的音频，并精准输出所需要的摘要内容，让人眼前一亮。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

还没完！Gemini还能根据指示，教工作人员“鸭子”的普通话发音，并解释了汉语声调，点个赞！

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

更厉害的是，它还能教你做饭，例如煎个蛋？你可以用语音问Gemini，还可以把手头有的食材拍个照片发过去，然后Gemini就会结合配图中的食材，及所发送的音频需求，来一步步教你怎么做出完美的煎蛋。没想到，有一天AI也能指导做饭，各位不会做饭星人有救了。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

重点来了，Gemini理解文本的能力也不容小觑，它尤其擅长解释数学和物理等复杂科目中的推理。对于很多家长来说，辅导孩子作业也是下班后“必不可少的工作”，但有时一些题目自己也不会，或者因为一些别的事，没时间辅导孩子，该怎么办呢？答案很简单，拍张图交给Gemini就完事了。

它在给出正确答案的基础上，还能针对解答过程中孩子不懂的步骤给出具体解释，甚至它还可以指出孩子解答过程中具体出错的点。最后，你还可以直接让Gemini输出一个和出错类型相似的题目，让孩子再巩固一下知识点。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

其它方面，Gemini在辨认环境、物体等场景，也不在话下。从谷歌演示来看，给它一张充满阳光的房间照片，它就能推理出来这个房间是朝南朝北，甚至告诉你房间里的植物应该要怎么照顾。整个交流过程十分顺畅，可见Gemini在多语言环境下表现出众，完全不亚于GPT-4。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

官方介绍，在Gemini的三个尺寸模型中，Gemini Pro已率先被用在谷歌聊天机器Bard的升级上。经过谷歌测试后，Gemini Pro的表现要优于GPT-3.5。

而为了进一步展现升级后的Bard有多强，谷歌还请了油管教育博主Mark Rober，全程使用Bard作为辅助工具，从零开始画图纸，最后真的造出了一架巨大的纸飞机。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

说了这么多，其实无论是指导做饭，还是辅助造纸飞机，都直观说明了，Gemini确实给普通大众的生活，带来了一定帮助，让AI真正融入日常。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

当然，除了上面说到的这些之外，谷歌还展示了Gemini的很多能力，例如读柱状图，生成表格；或者直接生成图文并茂的博客；以及展示图形逻辑的推理，还有更为复杂的编程等等，这些都很好说明了Gemini确实很聪明，智慧。

说了这么多，总之从谷歌公布的一系列参数和操作展示来看，Gemini的“AI能力”有目共睹，确实越来越像一位真正的“人类助手”！

现如今，人工智能迎来发展浪潮，对于谷歌而言，在AI即使早在AI领域深耕多年，拥有优质人才和深厚技术积累，却被OpenAI抢了先，以至于后面不得不奋力追赶。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

细数下来，今年3月OpenAI发布GPT-4，随后谷歌搞了一款Bard的聊天机器人，但可惜这款对标ChatGPT的机器人并没有获得很大的市场声量。后面的故事也不少，谷歌连续官宣战略合作、紧急发布多个AI工具等等，这些大动作，无疑都表明了谷歌在强烈反击。

直到“谷歌大脑”与Alphabet旗下的人工智能实验室DeepMind合并后，数百名AI精兵疯狂冲刺，才有了Gemini的诞生。现在凭借Gemini的强大实力，谷歌终于扬眉吐气，据说Gemini官宣发布后，不少OpenAI的研究员也都发文祝贺谷歌。

谷歌“最强”AI诞生！听、说、看、写样样精通，还能教人做饭……

而纵观当下整个AI浪潮发展史，Gemini的发布无疑是AI界又一个里程碑，这意味着AI大模型浪潮进入到一个全新阶段，比起大语言模型，这种多模态模型的运作模式，才是人类最自然的和世界交互的方式。

但话说回来，多模态领域还在技术探索初期，Gemini的发布也只是掀起了其中一角，但这也将直接导致全球的AI大模型竞赛进入新一轮竞争，那么就期待下谷歌或OpenAI，会不会再掀起巨大水花吧。

本文由极果用户极果媒体原创

Tags：谷歌点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

机械设备B2B工厂外贸网站如何做Google谷歌SEO优化关键字排名？

在今天的全球化市场中，机械设备行业正面临着激烈的竞争。要在这一领域脱颖而出，拥有一个优化良好的B2B外贸网站至关重要。通过精准的谷歌SEO关键字排名，您的网站可以吸引更多海...【详细内容】

2024-04-08　　Search: 谷歌点击:(4)　　评论:(0)　　加入收藏

Win10/Win11和 macOS用户反馈：谷歌云服务“捆绑”系统 DNS 设置

IT之家 4 月 6 日消息，谷歌公司承认旗下的 Google One 订阅服务中存在问题，在 Windows 10、Windows 11 以及 macOS 系统上会更改系统 DNS 设置，变更为 8.8.8.8 地址。Google On...【详细内容】

2024-04-08　　Search: 谷歌点击:(3)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　Search: 谷歌点击:(6)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　Search: 谷歌点击:(7)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　Search: 谷歌点击:(7)　　评论:(0)　　加入收藏

谷歌 Gmail 新规生效：为遏制钓鱼 / 欺诈情况，日群发超 5000 封邮件账号需验证

IT之家 4 月 2 日消息，谷歌为了增强对垃圾邮件和网络钓鱼攻击的管控，今天宣布正式启用新措施：对于向 Gmail 邮箱账号日群发数量超过 5000 封的用户，需要其在域名中设置 SPF / DK...【详细内容】

2024-04-02　　Search: 谷歌点击:(9)　　评论:(0)　　加入收藏

谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录

IT之家 3 月 28 日消息，谷歌近日对其账户登录页面进行了重大更新，现在能够在用户登录谷歌账户时，使用 Windows Hello 作为身份验证方法。使用通行密钥，用户将不再局限于使用密码...【详细内容】

2024-03-29　　Search: 谷歌点击:(15)　　评论:(0)　　加入收藏

谷歌SEO外链优化指南:高质量外链平台选择与实操技巧

今天我们来聊一个对网站SEO至关重要的话题—— Google外链优化。相信不少做网站优化的朋友都深有体会,高质量的外链对提升网站权重和关键词排名有着显著的作用。...【详细内容】

2024-03-27　　Search: 谷歌点击:(13)　　评论:(0)　　加入收藏

Google搜索引擎索引的网页数量有多少？谷歌官方提供数据进行参考

Google搜索引擎索引的网页数量有多少？二十世纪九十年代，网页的索引数量成了一个各大搜索引擎相互对比的指标。小编记得2000年谷歌搜索引擎的首页搜索框上方，还标记着谷歌索引的...【详细内容】

2024-03-27　　Search: 谷歌点击:(12)　　评论:(0)　　加入收藏

百度谷歌301强引蜘蛛池效果怎么样

随着搜索引擎优化（SEO）技术的发展，越来越多的网站开始采用蜘蛛池技术来提高网站的排名和流量。其中，301强引蜘蛛池作为一种常见的手段，备受关注。那么，301强引蜘蛛池的效果究竟如...【详细内容】

2024-03-26　　Search: 谷歌点击:(4)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(4)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版