如何有效减少 AI 模型的数据中心能源消耗？

时间：2023-11-17 14:49:02 来源：微信公众号作者：AI技术和商业思维

在让人工智能变得更好的竞赛中，麻省理工学院（MIT）林肯实验室正在开发降低功耗、高效训练和透明能源使用的方法。

在 google 上搜索航班时，您可能已经注意到，现在每个航班的碳排放量估算值都显示在其成本旁边。这是一种告知客户其对环境影响的方式，并让他们将这些信息纳入决策中。

尽管计算机行业的碳排放量超过了整个航空业的碳排放量，但这种透明度尚不存在。这种能源需求不断升级的是人工智能模型。像ChatGPT这样巨大的流行模型预示着大规模人工智能的趋势，预测到2030年，数据中心将消耗全球21%的电力供应。

麻省理工学院（MIT）林肯实验室超级计算中心（LLSC）正在开发技术，以帮助数据中心控制能源使用。他们的技术范围从简单但有效的更改，如调整硬件的功率上限，到采用可以在早期停止人工智能训练的新工具。至关重要的是，他们发现这些技术对模型性能的影响最小。

从更广泛的角度来看，他们的工作是动员绿色计算研究并促进透明文化。“能源感知计算并不是一个真正的研究领域，因为每个人都在保留他们的数据，”领导能源感知研究工作的LLSC高级职员Vijay Gadepally说。“必须有人开始，我们希望其他人也能效仿。

抑制功率和冷却

与许多数据中心一样，LLSC 在其硬件上运行的 AI 作业数量显著增加。注意到能源使用量的增加，LLSC的计算机科学家对更有效地运行作业的方法感到好奇。绿色计算是该中心的一项原则，该中心完全由无碳能源提供动力。

训练 AI 模型（从庞大数据集中学习模式的过程）需要使用图形处理单元（GPU），这些硬件是耗电的硬件。例如，训练 GPT-3（ChatGPT 的前身）的 GPU 估计消耗了 1,300 兆瓦时的电力，大致相当于1,450 个美国普通家庭一个月使用的电力。

虽然大多数人寻求 GPU 是因为其计算能力，但制造商提供了限制 GPU 允许消耗的功率的方法。“我们研究了封顶功率的影响，发现我们可以将能耗降低约12%至15%，具体取决于模型，”LLSC的研究员Siddharth Samsi说。

限制功率的影响是增加任务时间——GPU 完成任务所需的时间将延长约 3%，Gadepally 表示，考虑到模型通常需要几天甚至几个月的训练，这种增加“几乎不明显”。在他们的一项实验中，他们训练了流行的 BERT 语言模型，将 GPU 功率限制在 150 瓦，训练时间增加了两个小时（从 80 小时增加到 82 小时），但节省了相当于一个美国家庭一周的能源。

然后，该团队构建了软件，将这种功率封顶功能插入到广泛使用的调度器系统 Slurm 中。该软件允许数据中心所有者在其系统中或逐个作业设置限制。

“我们今天就可以部署这种干预措施，我们已经在所有系统中这样做了，”Gadepally说。

附带的好处也出现了，自从实施功率限制以来，LLSC 超级计算机上的 GPU 一直在以更稳定的温度运行 30 华氏度左右，从而减少了冷却系统的压力。运行硬件冷却器还可以提高可靠性和使用寿命。他们现在可以考虑推迟购买新硬件——减少中心的“隐含碳”，即通过制造设备产生的排放——直到使用新硬件所获得的效率抵消了这方面的碳足迹。他们还在寻找减少冷却需求的方法，通过战略性地将作业安排在夜间和冬季运行。

Gadepally说：“数据中心今天可以使用这些易于实施的方法来提高效率，而无需修改代码或基础设施。

全面了解数据中心的运营以寻找削减成本的机会可能会耗费大量时间。为了让其他人更容易完成这一过程，该团队与Northeastern大学的Devesh Tiwari教授和Baolin Li合作，最近开发并发布了一个用于分析高性能计算系统碳足迹的综合框架。系统从业者可以使用此分析框架来更好地了解其当前系统的可持续性，并考虑对下一代系统进行更改。

调整模型的训练和使用方式

除了对数据中心运营进行调整外，该团队还在设计提高 AI 模型开发效率的方法。

在训练模型时，AI 开发人员通常专注于提高准确性，并以以前的模型为基础进行构建。为了实现所需的输出，他们必须弄清楚要使用哪些参数，而要做到这一点可能需要测试数千种配置。这个过程被称为超参数优化，是LLSC研究人员发现的减少能源浪费的成熟领域。

“我们开发了一个模型，基本上着眼于给定配置的学习速度，”Gadepally说。鉴于这个比率，他们的模型预测了可能的表现。表现不佳的模型会提前停止。“我们可以在早期给你一个非常准确的估计，最好的模型将在100个模型中的前10个模型中，”他说。

在他们的研究中，这种提前停止导致了巨大的节省：用于模型训练的能源减少了80%。他们将这种技术应用于为计算机视觉、自然语言处理和材料设计应用程序开发的模型。

“在我看来，这种技术在推进人工智能模型训练方式方面具有最大的潜力，”Gadepally说。

训练只是 AI 模型排放的一部分。随着时间的推移，排放的最大贡献者是模型推理，或实时运行模型的过程，例如用户与 ChatGPT 聊天时。为了快速响应，这些模型使用冗余硬件，一直运行，等待用户提出问题。

提高推理效率的一种方法是使用最合适的硬件。此外，该团队还与Northeastern大学合作，创建了一个优化器，将模型与碳效率最高的硬件组合相匹配，例如用于推理计算密集型部分的高功率GPU和用于要求较低的方面的低功耗中央处理器（CPU）。这项工作最近在国际ACM高性能并行和分布式计算研讨会上获得了最佳论文奖。

使用此优化器可以减少 10-20% 的能源使用，同时仍能满足相同的“服务质量目标”（模型的响应速度）。

此工具对云客户特别有用，这些客户从数据中心租用系统，并且必须从数千个选项中选择硬件。“大多数客户高估了他们的需求;他们之所以选择功能过强的硬件，只是因为他们不知道更好，“Gadepally 说。

绿色计算意识的增强

实施这些干预措施所节省的能源也降低了开发人工智能的相关成本，通常以一比一的比例降低。事实上，成本通常被用作能源消耗的代名词。既然节省了这些成本，为什么不让更多的数据中心投资于绿色技术呢？

“我认为这有点激励失调的问题，”萨姆西说。“在构建更大更好的模型方面，有如此激烈的竞争，几乎所有次要考虑因素都被搁置一旁。

他们指出，虽然一些数据中心购买了可再生能源信用额度，但这些可再生能源不足以满足不断增长的能源需求。为数据中心供电的大部分电力来自化石燃料，而用于冷却的水正在导致流域压力。

他们还承认，如果没有能够向人工智能开发人员展示其消费的工具，就很难实现透明度。他们希望能够向每个LLSC用户展示每项工作，他们消耗了多少能源，以及该能源量与其他能源量的比较情况，类似于家庭能源报告。

这项工作的一部分需要与硬件制造商更紧密地合作，以便更容易、更准确地从硬件中获取这些数据。如果制造商能够标准化数据的读取方式，那么节能和报告工具就可以应用于不同的硬件平台。LLSC 研究人员和英特尔之间正在开展合作，以解决这一问题。

即使对于意识到人工智能强烈能源需求的人工智能开发人员来说，他们也无法独自做太多事情来遏制这种能源使用。LLSC团队希望帮助其他数据中心应用这些干预措施，并为用户提供能源感知选项。他们的第一个合作伙伴关系是与美国空军合作，美国空军是这项研究的赞助商，该研究运营着数千个数据中心，应用这些技术可以显着降低其能耗和成本。

Tags：AI 模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

如何有效减少 AI 模型的数据中心能源消耗？

在让人工智能变得更好的竞赛中，麻省理工学院（MIT）林肯实验室正在开发降低功耗、高效训练和透明能源使用的方法。在 Google 上搜索航班时，您可能已经注意到，现在每个航班的碳排放...【详细内容】

2023-11-17　　Search: AI 模型点击:(235)　　评论:(0)　　加入收藏

Meta发布 AI 模型SeamlessM4T，可转录和翻译近100种语言

（图片来源@视觉中国）钛媒体App获悉，当地时间8月22日，科技巨头Facebook母公司Meta 对外发布了一款最新人工智能（AI）翻译引擎SeamlessM4T，可以更轻松地跨文本语音翻译和转录近100种语...【详细内容】

2023-08-23　　Search: AI 模型点击:(102)　　评论:(0)　　加入收藏

MetaGPT AI 模型开源：可模拟软件公司开发过程，生成高质量代码

IT之家 7 月 4 日消息，MetaGPT 是一个着重于代码生成的 AI 模型，虽然名字类似，但该模型并非 Meta 公司团队所开发，目前该模型已经在 GitHub 中开源。据悉，MetaGPT 模型可以抽象出...【详细内容】

2023-07-04　　Search: AI 模型点击:(302)　　评论:(0)　　加入收藏

AI 模型 Stable Diffusion 升级：正常生成五指、图像更逼真

IT之家 6 月 24 日消息，Stability AI 日前发布新闻稿，宣布推出 SDXL 0.9 版本更新，升级了 Stable Diffusion 文本生成图片模型。Stability AI 在新闻稿中，还对比了今年 4 月份发...【详细内容】

2023-06-24　　Search: AI 模型点击:(191)　　评论:(0)　　加入收藏

AI 模型第一次有了国家标准：华为、百度、鹏城实验室等编制

IT之家 4 月 11 日消息，2023 年 3 月 17 日，由华为、百度、北京大学、鹏城实验室等 16 家单位共同编制的国家标准《信息技术神经网络表示与模型压缩第一部分：卷积神经网络》（GB...【详细内容】

2023-04-11　　Search: AI 模型点击:(126)　　评论:(0)　　加入收藏

CV不存在了？Meta发布“分割一切”AI 模型，CV或迎来GPT-3时刻

机器之心报道机器之心编辑部 CV 研究者接下来的路要怎么走？「这下 CV 是真不存在了。如标题所述，这篇论文只做了一件事情：（零样本）分割一切。类似 GPT-4 已经做到的「回答一切...【详细内容】

2023-04-06　　Search: AI 模型点击:(218)　　评论:(0)　　加入收藏

▌简易百科推荐

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(5)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(12)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(8)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(10)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(8)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　云原生散修　　微信公众号　　Tags:Kubernetes 　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版