导语:一个比人类速度快5倍的模型可以通过设置将速度提高到比人类速度快125倍。
本文作者为加州伯克利分校助理教授Jacob Steinhardt。
GPT-4以其在编码、创意头脑风暴、写信和其他技能方面的能力,让许多人感到惊讶。机器学习领域的惊喜并不仅限于GPT-4:我之前也因Minerva在数学能力方面的表现感到惊讶,很多竞争性预测者也是如此。
我们如何能够对机器学习的发展有更少的惊讶?我们的大脑通常会隐式地进行零阶预测:查看当前的技术水平,并添加“似乎合理”的改进。但是,所谓的“似乎合理”容易受到认知偏见的影响,并且会低估像机器学习这样快速发展领域的进展。
一种更有效的方法是一阶预测:量化历史进展速度,并将其向前推演,同时考虑可能出现的放缓或加速原因。
在这篇文章中,我将使用这种方法来预测2030年大型预训练机器学习系统的特性。我将一直提到“GPT2030”,这是一个假设性的系统,具有我们预期在2030年大型语言模型中可能具备的能力、计算资源和推理速度(但很可能也会在其他形式上进行训练,比如图像)。
为了预测GPT2030的特性,我参考了多种信息源,包括经验性的缩放规律、未来计算和数据可用性的预测、特定基准测试中改进的速度、当前系统经验性的推理速度,以及可能的并行性改进。
GPT2030的能力事实上是令人惊讶的(至少对我来说是如此)。特别是,相较于当前的系统,GPT2030将在许多方面拥有显著的优势,甚至在某些重要方面优于当前的人类工作者:
GPT2030可能在多个具体任务上表现出超越人类的能力,包括编码、黑客攻击、数学,甚至可能包括蛋白质设计(第1节)。
GPT2030能够快速“工作”和“思考”:我估计它每分钟处理的文字数量将是人类的5倍,以此作为衡量标准[范围:0.5倍-20倍],通过支付每FLOP的费用提高5倍,这个速度可能增加到125倍(第2节)。
GPT2030可以任意复制并进行并行运算。训练GPT2030的组织将拥有足够的计算能力来运行许多并行副本:我估计足以在调整为人类工作速度时执行180万年的工作[范围:40万-1000万年](第3节)。考虑到前面提到的5倍加速,这项工作可以在2.4个月内完成。
由于具有相同的模型权重,GPT2030的副本可以共享知识,从而实现快速的并行学习:我估计相当于2500年人类学习的内容可以在1天内完成(第4节)。
GPT2030将在除文本和图像之外的其他形式上进行训练,可能包括分子结构、网络流量、低级机器代码、天文图像和脑部扫描等令人意想不到的形式。因此,在我们经验有限的领域中,它可能会具有强大的直观理解能力,包括形成我们尚未具备的概念(第5节)。
这些能力将至少加速许多研究领域,同时也会产生严重的滥用风险(第6节)。关于滥用,GPT2030的编程能力、并行化和速度将使其成为潜在的网络攻击威胁。此外,它快速的并行学习也可以用于分析人类行为,从而用几千个“年份”的实践来操纵和误导。
在加速方面,主要的瓶颈将是自主性。在像数学研究这样的领域,可以进行自动检查的工作,我预测GPT2030将超过大多数专业数学家。
在机器学习领域,我预测GPT2030将独立执行实验、生成图表和报告,但研究生和研究科学家将提供方向并评估结果。在这两种情况下,GPT2030将是研究过程的重要组成部分。
我对GPT2030性能的预测并不是从今天的系统中直观得出的,它们可能是错误的,因为关于2023年机器学习的形态存在很大的不确定性。然而,上述(1.-5.)的性能是我中位数的预测,无论GPT2030是什么样子,我都怀疑它不会是“只是比GPT-4好一点”。
如果我是对的,那么无论人工智能的影响是什么,它们都不会是微不足道的。我们应该现在就为这些影响做好准备,思考在最大的尺度上会发生什么(大约在1万亿美元、1000万人生命或对社会流程的重大干扰范围内)。现在被惊讶总比在7年后系统已经开始推出时被惊讶要好。
具体能力
我预计GPT2030将具备超越人类的编码、黑客攻击和数学能力。我还预计它在阅读和处理大规模语料库以寻找模式和洞见、以及回忆事实方面将具备超人能力。
最后,由于AlphaFold和AlphaZero在蛋白质结构预测和游戏玩法方面具备超人能力,GPT2030可能也会具备这些能力,例如,如果它在类似于AlphaFold/AlphaZero模型的数据上进行了多模态训练。
编程。在训练截止日期后,GPT-4在LeetCode问题上超越了强大的人类基准(Bubeck等,2023年,表2),并且通过了几家主要科技公司的模拟面试(图1.5)。改进的速度仍然很高,从GPT-3到4的跃升达到了19%。在更具挑战性的CodeForces比赛中,GPT-4表现不佳,但AlphaCode与中位数CodeForces竞争者持平。在更具挑战性的AppS数据集上,Parsel进一步超越了AlphaCode(7.8%->25.5%)。
展望未来,预测平台Metaculus在2027年预测了80%的中位数概率,这将超过所有除了最优秀的人类之外的所有人。
黑客攻击。我预计黑客攻击能力会随着一般编程能力的提高而改进,再加上机器学习模型可以比人类更可扩展且更有责任感地搜索大规模代码库中的漏洞。事实上,ChatGPT已经被用于帮助生成漏洞利用。
数学。Minerva在竞赛数学基准(MATH)上实现了50%的准确率,这比大多数人类竞争者表现要好。进展速度很快(1年内>30%),并且通过自动形式化、减少算术错误、改进思路链条以及改善数据等,存在显著的低悬果实。Metaculus预测到2025年MATH将达到92%的准确率,并在2028年前,预测人工智能在国际数学奥林匹克竞赛上获得金牌,与全球最优秀的高中学生水平持平。
我个人预计GPT2030在证明良好定理方面将优于大多数专业数学家。
信息处理。事实回忆和处理大规模语料库是语言模型记忆能力和大上下文窗口的自然结果。根据经验,GPT-4在广泛的标准化考试(包括法律考试、MCAT以及大学数学、物理、生物化学和哲学考试)中的准确率达到86%;即使考虑到可能的训练-测试污染,这可能超过了任何活着的人的知识广度。
关于大规模语料库,Zhong等(2023年)使用GPT-3构建了一个系统,在大型文本数据集中发现和描述了几个先前未知的模式,Bills等(2023年)中的相关任务的规模趋势表明,模型很快将具备超人能力。这些作品都利用了LLM(大型语言模型)的大上下文窗口,现在已超过10万个标记并在不断增长。
更一般地说,机器学习模型具有与人类不同的技能特点,因为人类和机器学习是针对非常不同的数据源(演化与大规模互联网数据)。当模型在视频识别等任务上达到人类水平时,它们可能在许多其他任务上也具备超人能力(如数学、编程和黑客攻击)。
此外,由于模型越来越大且数据越来越好,还可能会出现其他强大的能力,没有强有力的理由认为模型能力会在人类水平上或以下“停滞不前”。虽然当前的深度学习方法在某些领域可能达不到人类水平的能力,但也有可能在某些领域超越它们,甚至可能会在某些领域显著超越,特别是在人类没有进化专门化的数学等领域。
推理速度
(感谢Lev McKinney为本节运行性能基准测试。)
为了研究机器学习模型的速度,我们将衡量机器学习模型生成文本的速度,与人类的思考速度相比为每分钟380个单词(Korba(2016),详见附录A)。使用AI target=_blank class=infotextkey>OpenAI的聊天补全API,我们估计gpt-3.5-turbo每分钟可以生成1200个单词(wpm),而gpt-4截至2023年4月初每分钟生成370个单词。像pythia-12b这样的较小的开源模型,在A100 GPU上使用现成的工具至少可以实现1350 wpm,而通过进一步优化,这个速度可能会达到这个值的两倍。
因此,如果我们考虑到2023年4月的OpenAI模型,我们要么大约是人类速度的3倍,要么等于人类速度。我预测未来模型的推理速度会更快,因为有强烈的商业和实际压力促使推理速度加快。
实际上,在发布本文的前一周,根据Fabien Roger的追踪数据,GPT-4的速度已经提高到了约540wpm(每秒12个标记);这说明仍然有改进的空间和需求。
我的中位数预测是,模型将具有人类文字/分钟的5倍(范围:[0.5x,20x]),因为在进一步提高速度方面,可能会出现递减的实际效益,尽管有一些因素可能指向更高或更低的数字。我在附录A中提供了这些考虑的详细列表,以及在不同模型规模和实验细节中的速度比较。
重要的是,机器学习模型的速度并不是固定的。模型的串行推理速度可以通过成本为$k$的吞吐量$k^2$的$k$倍减少来增加(换句话说,可以用一个$k^2$倍更快的模型替换$k^3$个并行模型)。这可以通过并行平铺方案来实现,即使对于$k^2$的大值,理论上也可以运行,可能至少是100,甚至可能更多。
因此,一个比人类速度快5倍的模型可以通过设置$k=5$将速度提高到比人类速度快125倍。
一个重要的警告是速度不一定与质量相匹配:如第1节所述,GPT2030的技能特点与人类不同,在我们认为容易的一些任务上失败,在我们认为困难的一些任务上取得成功。因此,我们不应该将GPT2030视为“加速的人类”,而应该将其视为“加速的工作者”,具有潜在的反直觉技能特点。
然而,考虑速度提升仍然是有意义的,尤其是当速度提升较大时。对于具有125倍速度提升的语言模型,我们需要一天才能完成的认知行为,可能只需几分钟,前提是它们在GPT2030的技能范围内。使用之前黑客攻击的例子,我们难以生成的漏洞利用或攻击可能会被机器学习系统快速生成。
吞吐量和并行副本
模型可以在可用的计算资源和内存的限制下任意复制。这使它们能够迅速完成任何可以有效并行化的工作。此外,一旦某个模型被微调为特别有效,该变化可以立即传播到其他实例。模型还可以为专门的任务进行蒸馏,从而运行速度更快、更便宜。
一旦训练完一个模型,很可能会有足够的资源来运行许多复制品。这是因为训练一个模型需要并行运行多个副本,而训练模型的组织在部署时仍然拥有这些资源。因此,我们可以通过估计训练成本来下限估计副本的数量。
以GPT-3的训练成本为例,足以对其进行9 x 10^11次前向传递。换算成人类等效术语,人类每分钟思考380个单词(见附录A),每个单词平均1.33个标记,因此9 x 10^11次前向传递相当于以人类速度进行~3400年的工作。因此,该组织可以在一年内以人类工作速度运行3400个模型的并行副本,或者在5倍人类速度下可能在2.4个月内运行相同数量的副本。(注意:后一点取决于组织可以运行多少并行实例。)
接下来,让我们将相同的“训练过剩”(训练成本与推理成本的比率)投影到未来的模型上。它应该会更大:主要原因是训练过剩大致与数据集大小成正比,而数据集随着时间的推移在增加。
随着我们耗尽自然生成的语言数据,这种趋势会减缓,但新的模式以及合成或自动生成的数据仍然会推动它前进。
在附录B中,我详细考虑了这些因素,以进行到2030年的预测。我预测,到2030年,模型将具备足够的资源进行180万年的工作,调整为人类速度[范围:40万-1000万]。
注意,Cotra(2020年)和Davidson(2023年)估计了类似的数量,得出的数字比我的大;我猜测主要的区别是我如何对耗尽自然语言数据的影响建模。
上述预测在某种程度上是保守的,因为如果组织购买了额外的计算资源,模型可能会在比训练时使用更多的资源上运行。一个快速的估算表明,GPT-4是在全球所有计算资源的约0.01%上进行训练的,尽管我预计未来的训练将占据更大比例的全球计算资源,并因此在训练后的扩展空间较小。尽管如此,如果组织有充分的理由这么做,它们可能还可以将运行的副本数量增加一个数量级。
知识共享
(感谢Geoff Hinton首次向我提出这个观点。)
不同副本的模型可以共享参数更新。例如,ChatGPT可以部署到数百万用户中,从每次交互中学到一些东西,然后将梯度更新传播到一个中央服务器,这些更新会被平均起来并应用于所有模型的副本。
通过这种方式,ChatGPT在一个小时内可以观察到关于人类本性的更多内容,而人类在一生中可能无法做到这一点(100万小时=114年)。并行学习可能是模型具有的最重要的优势之一,因为这意味着它们可以迅速学习任何缺失的技能。
并行学习的速率取决于同时运行的模型副本数量、它们能够获取数据的速度以及数据是否能够在并行中有效地利用。在最后一个问题上,即使极端并行化也不应该对学习效率造成太大影响,因为实践中的批处理大小通常在数百万。
根据McCandlish等人(2018年)的研究,梯度噪声规模预测在某个“临界批处理大小”以下,学习性能的降低非常小。因此,我们将重点放在并行副本和数据获取上。
我将提供两个估计,两者都表明,在人类速度下,至少可以有大约100万个模型副本同时进行学习。这相当于每天2500个人类等效的学习年,因为100万天=2500年。
第一个估计使用了第3节中的数字,该节得出的结论是训练模型的成本足以模拟模型进行180万年的工作(调整为人类速度)。假设训练过程本身持续时间不到1.2年(Sevilla等,2022年),这意味着训练模型的组织在以人类速度运行150万个副本的情况下拥有足够的GPU。
第二个估计考虑了部署模型的组织的市场份额。例如,如果同时有100万用户查询模型,那么组织必然有足够的资源来为100万个模型副本提供服务。作为一个估算,截至2023年5月,ChatGPT拥有1亿用户(并非同时都在活跃),并且截至2023年1月,每天有1300万活跃用户。
我会假设典型用户请求几分钟的模型生成文本,因此1月份的数字可能只意味着每天约0.05百万人天的文本。然而,未来类似于ChatGPT的模型可能会增加到20倍,达到每天2.5亿活跃用户或更多,因此每天产生100万人天的数据。作为对比,Facebook拥有20亿每日活跃用户。
模态、工具和执行器
从历史上看,GPT风格的模型主要是在文本和代码上进行训练,并且除了通过聊天对话以外,与外界互动的能力有限。然而,这种情况正在迅速改变,因为模型正在被训练用于其他模态,比如图像,也在被训练使用工具,并开始与物理执行器进行交互。
此外,模型不会局限于人类中心的模态,如文本、自然图像、视频和语音,它们很可能还会在不熟悉的模态上进行训练,比如网络流量、天文图像或其他大规模的数据源。
工具。最近发布的模型使用外部工具,正如我们在ChatGPT插件、Schick等人(2023年)、Yao等人(2022年)和Gao等人(2022年)的研究中所看到的。将文本与工具使用相结合足以编写能够执行的代码,说服人类代表他们采取行动,进行API调用,进行交易,甚至可能进行网络攻击。工具使用在经济上很有用,因此将有强烈的动力进一步发展这种能力。
ChatGPT是一种反应型系统:用户说X,ChatGPT用Y进行回应。风险存在,但是是有界的。很快将诱惑出现主动型系统 - 一种助手将为您回复电子邮件,代表您采取行动等。风险将会大大增加。- Percy Liang (@percyliang) 2023年2月27日
新的模态。现在已经有大规模的开源视觉语言模型,比如OpenFlamingo,而在商业领域,GPT-4和Flamingo都是在视觉和文本数据上进行训练的。研究人员还在尝试使用更奇特的模态对,如蛋白质和语言(Guo等,2023年)。
我们应该期望大型预训练模型的模态继续扩展,有两个原因。首先,在经济上,将语言与不太熟悉的模态(如蛋白质)配对是有用的,这样用户可以从解释中受益,并有效地进行编辑。这预测蛋白质、生物医学数据、CAD模型以及与主要经济领域相关的任何其他模态将进行多模态训练。
其次,我们开始耗尽语言数据,因此模型开发者将寻找新类型的数据以继续从规模效益中受益。除了传统的文本和视频外,一些现有的最大数据来源是天文数据(很快将达到每天的艾字节级)和基因组数据(约0.1艾字节/天)。这些和其他大规模数据源很可能会被用于训练GPT2030。
使用奇特的模态意味着GPT2030可能具有非直观的能力。它可能会比我们更好地理解星星和基因,即使在处理基本的物理任务时会有困难。这可能会带来一些意外,比如设计新型蛋白质,这是基于GPT2030的“通用”智能水平,我们本不会预期的。在思考GPT2030的影响时,重要的是要考虑到由于这些奇特数据来源可能导致的特定超人能力。
执行器。模型也开始使用物理执行器:ChatGPT已经被用于控制机器人,OpenAI正在投资一家人形机器人公司。然而,收集物理领域的数据要比数字领域更加昂贵,而且人类在物理领域也更适应进化(因此ML模型与我们竞争的门槛更高)。
与数字工具相比,我预计掌握物理执行器的速度会更慢,并且我不确定我们是否应该在2030年之前期望这种情况。定量地说,我会给2030年是否会有一种能够自动组装与Metaculus问题中定义的比例复制法拉利的通用型模型一个40%的概率。
GPT-2030的影响
接下来,我们将分析类似GPT2030系统对社会意味着什么。拥有GPT2030特性的系统,至少会显著加速某些研究领域,同时也具有强大的滥用能力。
我将首先构建一些关于GPT2030的一般优势和局限性的框架,然后将其用作分析加速和滥用的镜头。
优势。GPT2030代表了一个大规模、高度适应性、高吞吐量的工作力。回想一下,GPT2030可以在平行副本上做180万年的工作,其中每个副本以5倍于人类速度运行。这意味着我们可以(在并行性限制的情况下)在2.4个月内模拟1.8百万个代理人每人工作一年。
如上所述,我们可以支付每个FLOP的5倍价格,以获得额外的25倍加速(达到125倍人类速度),因此我们也可以在3天内模拟一万四千个代理人每人工作一年。
局限性。利用这个数字化的工作力有三个障碍:技能配置、实验成本和自主性。就第一点而言,GPT2030将具有与人类不同的技能配置,使其在某些任务上表现较差(但在其他任务上表现较好)。
在第二个障碍上,模拟工作人员仍然需要与世界接口以收集数据,这有自己的时间和计算成本。最后,在自主性方面,如今的模型在“卡住”之前只能生成数千个标记的连续思路,进入不再产生高质量输出的状态。在将复杂任务委托给模型之前,我们需要显著提高可靠性。
我预计可靠性会增加,但并不是没有限制:我(非常粗略地)猜测GPT2030在需要被重置或通过外部反馈进行引导之前,将能够运行数天的人类等价时间。如果模型以5倍速度运行,这意味着它们需要每隔几个小时进行人类监督。
因此,GPT2030将最有影响的任务是:
利用GPT2030在相对于人类而言擅长的技能。
只需要可以迅速收集到的外部经验数据的任务(而不是昂贵的物理实验)。
可以事先分解为可靠执行的子任务,或者具有明确和可自动化的反馈指标来帮助引导模型。
加速。一个很好满足所有三个条件的任务是数学研究。在第一点上,GPT2030可能会具有超人的数学能力(第1节)。在第二和第三点上,数学可以通过纯粹的思考和写作来完成,我们知道何时一个定理被证明。而且全球总共的数学家并不多(例如,仅有3000人在美国),因此GPT2030可能能够在几天内模拟出超过所有数学家年产出的数量。
重要部分的机器学习研究也满足上述标准。GPT2030将会在编程方面超越人类,其中包括实施和运行实验。我猜它也会擅长呈现和解释实验结果,因为GPT-4能够以易于理解的方式解释复杂的主题(并且市场需求很大)。
因此,机器学习研究可能会减少到思考进行良好实验和与高质量(但潜在不可靠)的实验结果文稿进行交互。在2030年,研究生可能会拥有与今天的教授和几名优秀学生相同的资源。
社会科学的某些部分也可能会得到显著加速。有很多论文中,大部分工作是追踪、分类和标记科学上有趣的数据源,并提取重要的模式,例如Acemoglu等人(2001年)或Webb(2020年)的代表性例子。这满足了要求(3.),因为分类和标记可以分解为简单的子任务,而且它满足了要求(2.),只要数据在互联网上可用,或者可以通过在线调查收集到。
滥用。除了加速,还存在严重的滥用风险。最直接的情况是网络攻击的能力。检查特定目标的特定漏洞可能是可靠的,而且可以检查漏洞是否成功(在能够与代码交互的情况下),因此双重满足了要求(3.)。在(2.)方面,GPT2030需要与目标系统进行交互,以知道攻击是否奏效,这会带来一些成本,但不足以成为一个重要的瓶颈。
此外,该模型可以在开源代码上本地设计和测试漏洞作为训练数据,因此在需要与任何外部系统进行交互之前,它可以在很大程度上变得非常擅长于网络攻击。因此,GPT2030可以迅速对大量目标进行复杂的并行网络攻击。
第二种滥用来源是操纵。如果GPT2030同时与数百万用户进行交互,那么它在一个小时内获得的关于人类互动的经验,远远超过了人类一生的经验(100万小时=114年)。
如果它利用这些互动来学习操纵,那么它可以获得远远超过人类的操纵技能 - 类似于,骗子在欺骗受害者方面很擅长,因为他们在之前已经练习过几百人,而GPT2030可以将这种能力扩大数个数量级。因此,在一对一的对话中,它可能非常擅长操纵用户,或者在撰写新闻文章以影响公众舆论方面。
因此,总结一下,GPT2030可能会自动化几乎所有数学研究以及其他研究领域的重要部分,并且可能成为关于网络攻击、说服/操纵的有力手段。它的很多影响都会受到“监督瓶颈”的限制,因此,如果它能够在长时间内自主运行,那么它的影响可能会更大。
附录:未来模型的运行时间和训练估算
A. 每分钟生成的字数
首先,我们将估计人类和当前模型的每分钟字数。然后,我们将从当前模型推导出未来模型的情况。
对于人类,我们可以测量五个数字:说话速度、阅读速度、听力速度以及“椭圆”和“扩展”思考速度。关于前三者,Rayner和Clifton(2009)指出阅读速度为每分钟300字,说话速度为每分钟160字,而听力速度可能比说话速度快2-3倍(因此大约每分钟400字)。
对于思考速度,我们需要区分“椭圆”思维和“扩展”思维——事实证明我们的思维是在词汇的闪烁中进行的,而不是完整句子,如果我们将这些闪烁延伸到完整句子,会得到非常不同的字数(相差约10倍)。
Korba(2016)发现椭圆思维的速度为每分钟380字,而扩展思维的速度为每分钟约4200字。由于这些数字大多在300-400 wpm的范围内,我将使用每分钟380字作为人类思维速度的估计。根据OpenAI提供的4:3令牌到字数比,这相当于每分钟500个字节。
(感谢Lev McKinney在以下段落中运行评估。)
接下来,让我们考虑当前的模型。我们查询了gpt-3.5-turbo和gpt-4,以及EleutherAI的几个开源模型,以对它们的推断速度进行基准测试。我们通过查询模型从1数到n,其中n从100到1900,步长为100。
由于数字包含多个字节,我们在模型生成n个字节时将其截断,并测量经过的时间。然后,我们进行了带有偏置项的线性回归,以考虑延迟,以估计每秒生成的字节数。
GPT-4和GPT-3.5-turbo于2023年4月初从OpenAI AIP查询。所有pythia模型的实验都是使用deepspeed注入内核和fp16模型在一个A100 GPU上执行的。可以在https://Github.com/levmckinney/llm-racing找到复制这些结果的代码。
原始数据如下图所示
上图展示了模型推断随着字节输入的变化。请注意,在这些上下文长度下,每个字节的时间保持相对线性。
上图和下表展示了模型推断速度随大小的变化情况。误差条表示95%的置信区间。
因此,GPT-4的推断速度接近人类的基准值500个标记/分钟,而GPT-3.5-turbo则快大约3倍。更小的模型速度甚至快上一个数量级,这表明即使更快的推断速度是可能的,但也暗示未来更大的模型可能会变慢(未考虑更好的硬件和其他优化)。实际推断速度似乎在模型大小下以亚线性的方式减慢——在pythia模型中,将大小增加k倍会将推断速度减少大约k^0.6。
那么模型的每分钟单词数将如何在未来变化?有因素推动速度变快和变慢:
- 更大的模型更昂贵,特别是如果它们有更多的层(较大的宽度可以并行,但较大的深度不能)。
- 推断通常会进行更多优化,例如通过提前退出、稀疏注意、跨GPU并行化或更好的硬件。在这方面有相当大的潜力,尤其是来自并行化和硬件(见下面的讨论)。
- 特别是,将有很多动力使模型足够快,以便容易使用(例如,比人类阅读速度更快)。
在对模型大小、GPU架构等趋势的大量数据进行了10多个小时的分析后,我主要得出的结论是,我对更大的模型与更好的硬件和软件之间的竞争趋势如何发展非常不确定。
我中位数的猜测是,我们将获得比人类明显更快的模型(5倍),但我对速度从比人类慢2倍到比人类快20倍的各种情况都不感到惊讶。
重要的是,这些速度只是在我们要求GPU的最大吞吐量的情况下。如果我们愿意以k倍的吞吐量为代价,我们可以将推断速度提高k^2倍,直至达到相当大的k值。因此,如果模型默认只比人类快5倍,那么可以在吞吐量减少5倍的情况下将其提速至125倍,如果有必要,这还可以进一步提高。
最后,除了纯粹的速度,每分钟单词数在人类和语言模型之间并不是可比的。首先,语言模型不仅在思考,还在写作,而且在某些情况下,它们的写作内容对人类来说可能要慢得多(例如,代码或带有引用的论点)。
另一方面,语言模型目前相当啰嗦,因此语言模型的一个单词不如人类的一个单词进行“工作”多。这种啰嗦性可以通过微调消除,但我们不确定能否达到人类的“椭圆思维”的效率。
最后,令牌化和单词复杂性将随时间而变化,因此从单词到标记的1.333倍转换比率不会保持恒定(事实上,我猜对于今天的模型来说,它已经是一种低估,因为它们现在倾向于使用带有前缀和后缀的复杂词语)。
有关并行化和硬件加速的详细信息。正如《我们能多快执行前向传递?》一文所述,存在着可以显著增加串行推断速度的并行平铺方案,而只有很小的开销。例如,对GPT-3进行并行平铺会使其在A100集群上的推断速度相对于在单个8-GPU机器上运行时提高30倍或更多。
这些优化目前并没有被广泛使用,因为它们对于训练不是有用的,而且稍微减少了推断吞吐量,但一旦推断时间成为瓶颈,人们会开始使用它们。
就硬件而言,GPU的性能正在提升,这将加快推断速度。然而,GPU的设计越来越需要更大的算术强度,这将减少可能的并行平铺(见上一点)。供参考,我在下面列出了所有NVIDIA GPU的规格。
“Mem Bandwidth”(内存带宽)一栏测量了没有任何跨GPU并行化时的串行吞吐量,而最终的M3/C2一栏测量了在保持足够高算术强度的最大跨GPU并行化下的串行吞吐量。前者持续增加,而后者波动较大,但趋于减少。
(以下是表格数据,由于文字描述无法准确呈现表格,请参考原文)
这里是来自NVIDIA GPU的一些规格,表格中的“Mem Bandwidth”是指没有进行任何跨GPU并行化时的串行吞吐量,而最后一栏的M3/C2是指在保持足够高算术强度的最大跨GPU并行化下的串行吞吐量。
请注意,这些硬件规格数据是在原始帖子中提供的,随着硬件技术的不断更新,这些数据可能已经发生了变化。
B. 训练成熟度
将来可能会有足够的资源来运行训练过的模型的许多副本。以GPT-3为例,它需要3.1e23个浮点运算(FLOP)来进行训练,并且执行前向传递需要3.5e11个FLOP,因此可以用训练成本来运行9e11次前向传递。根据附录A中的每分钟500个标记的转换,这相当于约3400年的人类思维时间。
未来会如何变化?我将使用Chinchilla的缩放定律和未来训练成本的预测来进行初步估计,然后考虑可能偏离Chinchilla趋势的方式。对于未来的训练成本,我考虑了Besiroglu等人(2022)的预测,他们分析了500多个现有模型,以推断机器学习中的计算趋势。
他们对2030年训练FLOP的中央预测是4.7e28,范围为5.1e26至3.0e30。Metaculus也有类似的估计为2.3e27(截至2031年1月1日)。取几何中位数,我将使用1.0e28作为我对训练FLOP的估计,这相当于GPT-3的33,000倍增长。
由于Chinchilla的缩放定律暗示模型大小(因此推断成本)随着训练成本的平方根增长,这意味着训练成熟度应该增加sqrt(33000),大约是180倍。因此,3400年的人类思维时间将增加到620,000年。
然而,还有一个额外的考虑,即GPT-3实际上在训练规模上存在不足。给定其训练成本,GPT-3的理想大小应该是现在的四分之一,因此需要添加一个额外的因子4,得到2.5M年的人类思维时间,范围从0.8M到9M,考虑到训练FLOP数量的不确定性。
接下来,让我们考虑与Chinchilla的缩放定律偏离。最明显的偏离是我们可能很快就会耗尽数据。这可能意味着相对于更多的数据,更大的模型变得更有吸引力(这会减少训练成熟度),或者我们生成额外的合成数据(使创建数据更加计算密集,这会增加训练成熟度),或者我们转向新的数据丰富的形式,比如视频(对训练成熟度的影响不明确,可能会增加它)。粗略地界定这些效应:
下限:Villalobos等人(2022)估计,到2026年,我们将耗尽高质量的语言数据(例如维基百科、书籍、科学论文等),尽管我们在2030年之前不会耗尽低质量的数据(例如网页)。在一个悲观的情况下,高质量数据是一个完全具有约束力的条件,Villalobos等人的模型意味着数据集的大小到2030年会增加8倍,训练成熟度只会增加8倍,而不是180倍。
上限:如果我们用尽了数据,我们可能会生成新的合成数据。Huang等人(2022)中的一个可能性是像链式思维精馏一样。在那篇论文中,每个输入实例会生成32个思维链,其中只有一部分用于训练更新。假设平均有5个32个思维链用于训练更新,并且反向传递的成本是前向传递的两倍。那么,每次训练更新的成本相当于8.4个前向传递,相比之下之前是3个,或者增加了2.8倍。在Chinchilla的缩放定律下,这个成本前传到训练成熟度的额外增加,即sqrt(2.8) = 1.7倍增加,即300倍而不是180倍。
总体而言,下限对我来说似乎相当悲观,因为我们几乎肯定会找到一些方法来利用低质量或合成数据。另一方面,除了耗尽数据,我们可能会通过课程学习等方式找到使训练过程更加高效的方法。在考虑这些因素的情况下,我个人的猜测是,我们的训练成熟度将在12倍至200倍之间,中央估计为100倍,从而得到大约18万年的人类思维时间的训练成熟度。我们还需要扩大范围,以考虑到对Chinchilla缩放定律的偏离所带来的额外不确定性。主观地说,我会将范围增加到40万到1000万。
所有这些估计都是针对2030年的。一般来说,上述数字对于晚些年份来说会更大,而对于早些年份来说会更小。
作为一个额外的比较点,Karnofsky(2022年)(在Cotra,2020年的基础上)估计,培训一个人类级别的模型所需的计算量足以让100百万份模型每个运行一年,尽管这个估计假设培训使用了1e30个浮点运算(FLOPs)而不是1e28。即使考虑到这一点,对我来说似乎有点过高了,根据上面的平方根缩放,我会更接近180万而不是1亿。
不过实际上,如果做得正确,零阶预测已经会很有帮助了!许多对ChatGPT感到惊讶的人可能已经对text-davinci-003感到印象深刻,虽然后者发布得更早,但界面不太友好。
作为具体的比较点,GPT-3的计算量只足以进行3400个经过人类调整的工作年,我猜它每天可能不到100个经过调整的学习年。我猜GPT-4的计算量约为13万人类调整的工作年和125个调整年的学习。因此,GPT2030在这两个轴上至少是一个数量级更大。
在整个文档中,括号中的范围表示我的预测分布的25th到75th百分位数。实际上,范围可能过窄,因为我只进行了主线预测,没有考虑“其他”选项。
从定性上看,GPT-4 Bubeck等人还发现,GPT-4可以零射击生成一个400行的3D游戏,这对于几乎所有人类来说可能是不可能的。
关于此事的讨论,请参阅“Forecasting ML Benchmarks in 2023”。
具体来说,我会给以下情况分配50%的概率:“如果我们从Electronic Journal of Combinatorics中随机选择5个定理陈述,并将它们交给UCSD的数学系,GPT2030在解决问题的比例上会比中位数教员解决的问题多,并且在解决问题时所需的时间会比中位数教员短。”
我假设初始训练运行时间不到一年(Sevilla等,2022年),因此可以推出该组织至少可以并行运行9 x 10^11次前向传递,但要受到推理速度的限制。为了在2.4个月内做到这一点,他们可能需要进一步改进。
我认为这是合理的(但不确定),因为组织可能在不到一年的时间内训练了该模型,并且在推理方面可能有一些技巧可用,这些技巧在训练中不可用。
第二个因素是,GPT-3的训练是不完美的,使用Chinchilla风格的理想大小本应是更小的,所以我们需要额外增加4倍的因子,从而得到2.5百万人年,范围从0.8百万到900万,考虑到训练FLOP数量的不确定性。
此外,根据Metaculus的估计,2030年最大的训练模型将具有2.5e15个参数(截至2030年1月1日),意味着前向传递成本为5e15 FLOPs。如果我们简单地计算比值,我们会再次得到9e11次前向传递,但我认为这不是正确的计算,因为最大的训练模型可能不会是当时的尖端水平,而更像是174万亿参数的BaGuaLu模型。
我根据Metaculus对其估计的25%到75%百分位数范围为5M到660M,并将不确定性传递到平方根函数中。