非ChatGPT的14个大型语言模型

时间：2023-07-10 16:47:58 来源：51CTO 作者：

译者 | 李睿

如今，很多企业高管都将人工智能视为未来发展方向，许多技术领导者也将ChatGPT视为人工智能的代名词。但是AI target=_blank class=infotextkey>OpenAI的旗舰产品ChatGPT并不是唯一的大型语言模型——对于一些软件项目或领域来说，ChatGPT甚至可能不是一个最好的选择。几乎每天都有新的竞争者出现。似乎每家科技公司都想构建下一代人工智能工具，这些工具带来的好处和坏处取决于人们如何应用。

一些大型语言模型比其他一些模型好吗?也许。但它们都有缺陷、怪癖、故障和弱点，使用的时间越长，这些缺陷就越明显。生成式人工智能乍一看似乎很神奇，但随着时间的推移，其怪异和不可预测的一面开始显现。

衡量大型语言模型

由于大型语言模型的范围和使用方式，科学地衡量生成式人工智能回答问题的质量是很困难的。数据科学家可以输入数千甚至数百万个测试问题并评估答案，但如果测试集只关注一种类型的问题，那么其输出结果将会受到限制。咨询像Hugging Face这样的Open LLM排行榜类似的资源很有趣，但不一定准确。

如果说找到一种精确的方法来对大型语言模型进行衡量很困难，那么在它们之间切换变得越来越容易了。像OpenLLM或FastChat这样的项目使各种大型语言模型的连接变得更简单，尽管它们有不同的API和接口。开发人员可以将这些整合在一起，有时甚至可以并行运行这些模型。

构建大型语言模型的一个主要问题是成本。虽然人们很感兴趣并且投资得到爆炸式增长，但构建一个大型语言模型可能需要数月甚至数年的时间。开发团队首先收集训练数据，然后采用成本高昂的硬件消耗大量电力推送数据。最后他们制作了大型语言模型，而如何盈利以及维持这项工作的最佳方式是一个不断演变的问题。

一些企业正在尝试开源他们开发的大型语言模型，而另一些企业则依赖具有自己计费模型的服务。开源大型语言模型可能是一份真正的礼物，但前提是能够处理部署模型并保持其运行的工作。

以下是非ChatGPT的14种大型语言模型。它们可能是用户运营项目所需要的大型语言模型，也可能不是。唯一知道的方法就是把提示发给它们，并仔细评估结果。

1.Llama

Facebook(如今更名为Meta)创建了这个基础大型语言模型，然后将其发布，作为其声明的“开放科学承诺”的一部分。任何人都可以下载Llama，并将其作为为特定应用创建更精细调整模型的基础（Alpaca和Vicuna都是在Llama的基础上构建的)。该模型还有四种不同的规模。只有70亿个参数的较小版本在不太可能的地方使用。一名开发人员甚至声称Llama可以运行在只有4GB内存的Raspberry Pi上。

2.Alpaca

斯坦福大学的几位研究人员采用了Meta公司的Llama 7B，采用一组模仿ChatGPT等指令遵循模型的提示对其进行训练。这一微调产生了Alpaca 7B，这个大型语言模型将Llama LLM中编码的知识开放为人们可以通过提问和给出指令来获取的知识。据称，其轻量级大型语言模型可以在价值不到600美元的硬件上运行。

Alpaca 7B的创建者正在分发训练集和构建它的代码，任何人都可以复制模型或从不同的集合创建新的内容。

3.Vicuna

Llama的另一个后代是来自LMSYS.org的Vicuna。Vicuna团队从ShareGPT中收集了7万个不同对话的训练集，并特别注意创建多轮互动和指令跟随功能。这个大型语言模型有Vicuna-13b或Vicuna-7b两种版本，是最具价格竞争力的基本交互式聊天开放解决方案之一。

4.NodePad

并不是所有人都对大型语言模型生成“语言准确”文本的方式所吸引。NodePad的创建者认为，文本的质量往往会分散用户对潜在事实的双重检查。具有美观的用户界面的大型语言模型往往无意中美化结果，使用户更难以预测这些问题。NodePad旨在培养探索和创意，而不是生成用户几乎不会浏览的精致写作样本。这个大型语言模型的结果显示为节点和连接，就像人们在许多“思维导图工具”中看到的那样，而不像忆经完成的写作。用户可以利用该模型的百科知识来获得很好的想法，而不会在演示中迷失方向。

5.Orca

第一代大型语言模型在规模上取得了成功，随着时间的推移变得越来越大。来自微软公司研究团队的Orca扭转了这一趋势。该模型仅使用130亿个参数，使其能够在普通机器上运行。Orca的开发人员通过增强训练算法来使用“解释痕迹”、“逐步的思考过程”和“指令”来实现这一壮举。Orca并没有仅仅要求人工智能从原始材料中学习，而是提供了一套专门用于教学的训练集。换句话说，就像人类一样，人工智能在没有深入研究的情况下学习得更快。最初的结果很有希望，微软团队提供的基准测试表明，该模型的性能与更大的模型一样好。

6.Jasper

Jasper的创造者并不想创造一个聪明的多面手，他们想要的是一台专注于创造内容的聊天机器人。该系统提供了50多个模板，而不仅仅是一个开放式的聊天会话，这些模板是为特定任务设计的，例如为亚马逊这样的网站制作房地产清单或编写产品功能。其付费版本专门针对那些希望创建具有一致基调的营销文案的企业提供服务。

7.Claude

Anthropic把Claude塑造成一个乐于助人的助手，它可以处理企业的许多基于文本的业务（从研究到客户服务），输入提示，输出答案。Anthropic允许长提示来鼓励更复杂的指令，让用户对结果有更多的控制权。Anthropic目前提供两个版本：一个是名为Claude-v1的完整模型，另一个是更便宜的简化模型Claude Instant，后者的价格要便宜得多。第一种适用于需要更复杂、结构化推理的工作，而后者更快、更好地适用于分类和调节等简单任务。

8.Cerebras

当专用硬件和通用模型共同发展时，最终可以得到一个非常快速和有效的解决方案。Cerebras公司为那些想在本地运行它的用户提供了从小(1.11亿个参数)到大(130亿个参数)的各种Hugging Face大型语言模型。然而，许多人想要使用云计算服务，这些服务运行在Cerebras公司自己的集成处理器上，该处理器针对大型训练集进行了优化。

9.Falcon

全尺寸Falcon-40b和较小的Falcon-7b是由阿联酋的技术创新研究所(TII)建造的。他们在RefinedWeb上的大量通用示例上训练了Falcon模型，重点是提高推理能力。然后，他们将其与Apache 2.0一起发布，使其成为可用于实验的最开放和不受限制的大型语言模型之一。

10.ImageBind

许多人认为Meta公司是一家主导社交媒体的大公司，但该公司也是一家开源软件开发商。随着人们对人工智能的兴趣日益浓厚，该公司开始分享自己的许多创新成果也就不足为奇了。ImageBind是一个旨在展示人工智能如何同时创建多种不同类型数据的项目；在这种情况下，包括文本、音频和视频。换句话说，如果允许的话，生成人工智能可以将整个想象的世界整合在一起。

11.Gorilla

人们可能听说过很多关于使用生成式人工智能编写代码的事情。其结果往往表面上令人印象深刻，但仔细检查就会发现存在严重缺陷。其语法可能是正确的，但是API调用都是错误的，或者它们甚至可能指向一个不存在的函数。Gorilla是一个大型语言模型，它的设计是为了更好地处理编程接口。它的创建者从Llama开始，然后对其进行微调，重点关注直接从文档中截取的更深层次的编程细节。Gorilla的团队还提供了自己的以API为中心的测试成功基准集。对于希望依靠人工智能进行编码协助的程序员来说，这是一个重要的补充。

12.Ora.ai

Ora.ai是一个允许用户创建针对特定任务进行优化的目标聊天机器人的系统。LibrarianGPT尝试用一本书中的段落来回答任何问题。例如，聊天机器人可以从Carl Saga教授的所有著作中汲取灵感。人们可以创建自己的聊天机器人，也可以使用其他人已经创建的数百个聊天机器人中的一个。

13.AgentGPT

另一个将应用程序所需的所有代码整合在一起的工具是AgentGPT。它的设计目的是创建代理，这些代理可以被派去处理诸如计划度假或编写某种游戏代码之类的工作。大部分技术栈的源代码都可以在GPL3.0下获得。还有一个正在运行的版本作为服务提供。

14.FrugalGPT

FrugalGPT 并不是一个不同的模型，而是一种寻找价格更低的模型来回答特定问题的谨慎策略。FrugalGPT的研究人员认识到，回答许多问题不需要更大、更昂贵的模型。他们的算法从最简单的开始，在一系列大型语言模型中逐级移动，直到找到一个更好的答案。研究人员的实验表明，这种谨慎的方法可以节省98%的成本，因为许多问题实际上并不需要采用复杂的模型。

原文标题：14 LLMs that aren't ChatGPT，作者：Peter Wayner

Tags：大型语言模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

简易百科之什么是大型语言模型？

简易百科之什么是大型语言模型？随着人工智能技术的不断发展，语言模型在自然语言处理领域的应用越来越广泛。大型语言模型作为其中的一种重要类型，受到了广泛的关注和研究。那么...【详细内容】

2024-01-26　　Search: 大型语言模型点击:(161)　　评论:(0)　　加入收藏

大型语言模型中最大的瓶颈：速率限制

作者 | Matt Asay策划 | 言征出品 | 51CTO技术栈（微信号：blog51cto）速率限制意味着每个人都在等待更好的计算资源或不同的生成人工智能模型。大型语言模型（LLM），如OpenAI的GPT-4...【详细内容】

2024-01-19　　Search: 大型语言模型点击:(51)　　评论:(0)　　加入收藏

一文读懂大型语言模型LLM

在当今的技术世界中，人工智能正以前所未有的速度发展和演变。这一领域的快速发展得益于先进的机器学习算法、海量数据的可用性以及计算能力的显著提升。特别是，在自然语言处理...【详细内容】

2024-01-02　　Search: 大型语言模型点击:(81)　　评论:(0)　　加入收藏

一文带你解密 Large Language Model（大型语言模型）

Hello folks，我是 Luga，今天我们来聊一下人工智能（AI）生态领域相关的技术 - Large Language Model（大型语言模型）。在过去十年间，AI（人工智能）领域取得了令人瞩目的突破，而其中的 NLP...【详细内容】

2023-11-14　　Search: 大型语言模型点击:(282)　　评论:(0)　　加入收藏

什么是 LLM （大型语言模型）以及如何构建LLM？

来源：Mangesh Gothankar在本文中，我们将了解如何从零开始构建 LLM（大型语言模型）。你可能会问，为什么要做这样的事情？是这样的，LLM 在无数应用中都非常有用，从头开始构建一个 LLM，你...【详细内容】

2023-11-09　　Search: 大型语言模型点击:(90)　　评论:(0)　　加入收藏

大型语言模型（LLM）技术精要，不看亏了

今天分享一篇知乎高赞文章，作者是张俊林老师。图片读完收获很多，能帮大家更好地理解、学习大模型。原文有2.8w字，我提炼了核心要点，阅读需要10min。ChatGPT的出现给很多人带来了...【详细内容】

2023-11-06　　Search: 大型语言模型点击:(224)　　评论:(0)　　加入收藏

大型语言模型的零样本性能

近年来，随着人工智能技术的高速发展，大型语言模型成为了自然语言处理领域的一项重要突破。然而，对于这些模型来说，如何在未接触过的问题上表现出可靠的零样本性能一直是一个挑战...【详细内容】

2023-10-10　　Search: 大型语言模型点击:(285)　　评论:(0)　　加入收藏

大型语言模型和人工智能代码生成器的兴起

译者 | 李睿本文作者Martin Heller是一名Web和Windows编程顾问，也是行业媒体InfoWorld的特约编辑和评论员。Heller表示，他在2021年11月撰写关于GitHub Copilot的文章时，Copilot...【详细内容】

2023-08-04　　Search: 大型语言模型点击:(165)　　评论:(0)　　加入收藏

非ChatGPT的14个大型语言模型

译者 | 李睿如今，很多企业高管都将人工智能视为未来发展方向，许多技术领导者也将ChatGPT视为人工智能的代名词。但是OpenAI的旗舰产品ChatGPT并不是唯一的大型语言模型—...【详细内容】

2023-07-10　　Search: 大型语言模型点击:(198)　　评论:(0)　　加入收藏

如何训练自己的大型语言模型

本文将介绍Replit如何利用Databricks、Hugging Face和MosaicML训练大型语言模型(LLMs)。Replit是美国一家编码平台,提供了一个可从浏览器访问的IDE,无需设置即可开始编码,此...【详细内容】

2023-04-27　　Search: 大型语言模型点击:(275)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(5)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(2)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(3)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

短剧淘金者摊牌：抖快们	阿里巴巴的关键时刻
美团外卖宣布新一轮组	保险资金重仓股陆续揭
统计局解读3月份CPI和	万亿赛道“低空经济”
美联储透露重磅信号，酝	央行、证监会、财政部