近期,谷歌正在“争分夺秒”地准备在今年秋天发布 Gemini AI,以赶上 OpenAI 的 GPT-4 等竞争对手。
Gemini AI 在今年6月首度公开,将由先进的机器学习算法提供支持,使其能够理解自然语言并以对话方式响应用户查询。谷歌庞大的训练数据可以让 Gemini 在人工智能军备竞赛中占据优势。与 GPT-4 不同,Gemini 也是第一个可以处理视频以及文本和图像的多模态模型。
此外,Gemini 预计将用于多种 google 产品,包括 Bard 聊天机器人、电子邮件助手和搜索引擎。
报告表明,Gemini AI 在多模式能力方面取得了显着进步,超越了以前的模型。不仅可以进行文本生成,还支持根据文本描述创建图像。这意味着它可以处理和理解不同形式的数据,并且在工具和 API 集成方面非常高效。
它可以进行聊天对话、分析图表数据、创建图像,甚至可以通过自然语言命令控制软件。与谷歌 Bard 聊天机器人的集成将有助于谷歌云与 Microsoft Azure 等产品竞争。
在 5 月的 I/O 2023 期间,谷歌指出 Gemini 正在接受培训,一旦经过微调,它将可以“以各种尺寸和功能”使用,就像 PaLM 2 一样。该公司表示,它可以部署在不同的产品中,为每个人带来利益。
除了在企业服务中的应用之外,Gemini 在医疗用例方面还拥有巨大的潜力。谷歌一直在测试一款名为 Med-PaLM 2 的人工智能工具,该工具可以通过 Gemini 功能得到增强。该模型可用于医疗聊天机器人或机器人技术,以协助手术和医疗程序。
此外,谷歌在构建 DeepMind 的 Gato(一种“通用”系统)以及最近推出的 RT-2(一种机器人 Transformer 模型)方面的见解也可以集成到 Gemini 中。Google Brain 和 DeepMind 之间的合作对 OpenAI 和人工智能领域的其他竞争对手构成了重大挑战。
据悉,Gemini 还对 YouTube 视频进行了训练,这使其比竞争对手更具优势。它可以访问庞大的视频库 YouTube,并受益于比 GPT-4 和 PaLM 2 更多的令牌进行训练。增加的训练数据使 Gemini 更聪明,更不容易出错。然而,谷歌对有关训练数据的法律问题持谨慎态度,并通过法律团队的监控确保遵守版权法。
自ChatGPT诞生以来,DeepMind 和 Google 都针对 ChatGPT 制定了自己的应对措施,DeepMind 创建了 Project Goodall,而 Google 则推出了 Bard。该公司还在其搜索引擎和许多其他产品中使用了生成式人工智能。为了加速人工智能研究,该公司于4月份将 Hassabis 的 DeepMind 团队与谷歌的主要人工智能实验室 Brain 合并,创建了Google DeepMind。
据称,谷歌还表示,今年秋天发布 Gemini AI 的时机至关重要,谷歌当下正面临着在 AI 层面“掉队”的危险。