清华发布SmartMoE：一键实现高性能MoE稀疏大模型分布式训练

时间：2023-08-07 15:24:34 来源：机器之心Pro 作者：

机器之心专栏

机器之心编辑部

PACMAN 实验室探索大模型分布式训练系统再出新成果。

2023 年 7 月，清华大学计算机系 PACMAN 实验室发布稀疏大模型训练系统 SmartMoE，支持用户一键实现 MoE 模型分布式训练，通过自动搜索复杂并行策略，达到开源 MoE 训练系统领先性能。同时，PACMAN 实验室在国际顶级系统会议 USENIX ATC’23 发表长文，作者包括博士生翟明书、何家傲等，通讯作者为翟季冬教授。PACMAN 实验室在机器学习系统领域持续深入研究，SmartMoE 是继 FastMoE, FasterMoE 和 “八卦炉” 后在大模型分布式训练系统上的又一次探索。欲了解更多相关成果可查看翟季冬教授首页：

https://pacman.cs.tsinghua.edu.cn/~zjd

Mixture-of-Experts (MoE) 是一种模型稀疏化技术，因其高效扩展大模型参数量的特性而备受研究者关注。为了提高 MoE 模型的易用性、优化 MoE 模型训练性能，PACMAN 实验室在 MoE 大模型训练系统上进行了系统深入的研究。2021 年初，开源发布了 FastMoE 系统，它是第一个基于 PyTorch 的 MoE 分布式训练系统开源实现，在业界产生了较大的影响力。进一步，为了解决专家并行的稀疏、动态计算模式带来的严重性能问题，FasterMoE 系统地分析、优化了专家并行策略。FasterMoE 中设计的「影子专家」技术显著缓解了负载不均问题、通信 - 计算协同调度算法有效隐藏了 all-to-all 通信的高延迟。FasterMoE 成果发表在 PPoPP’22 国际会议。

论文地址：

https://www.usenix.org/system/files/atc23-zhAI.pdf

项目地址：

https://Github.com/zms1999/SmartMoE

MoE 模型遇到的难题

不同于稠密模型直接通过增大模型尺寸实现扩展，如图一所示，MoE 技术通过将一个小模型转变为多个稀疏激活的小模型实现参数扩展。由于各个专家在训练时稀疏激活，MoE 模型得以在不增加每轮迭代计算量的前提下增加模型参数量；从而有望在相同训练时间内获得更强的模型能力。

图一：通过 MoE 技术扩展模型规模

为了实现 MoE 大模型的分布式训练，业界提出了专家并行（Expert Parallelism）技术。如图二所示，各个专家被分布式地存储在不同节点上，在训练过程中通过 all-to-all 通信将训练数据发送至对应专家所在节点。专家并行相较于数据并行（Data Parallelism）有更小的内存开销，因为专家参数无冗余存储。可以认为专家并行是一种针对 MoE 结构的模型并行（Model Parallelism）。

图二：专家并行示意图

然而，使用朴素的专家并行技术训练 MoE 模型有严重的性能问题，其根因是 MoE 模型的稀疏激活模式。它会导致节点间产生大量不规则 all-to-all 通信增加延迟、计算量负载不均造成硬件利用率低。如图三所示的真实模型训练过程中的专家选择分布，可以观察到专家间显著的负载不均现象，且分布随训练进行动态变化。

图三：真实训练中的专家选择分布

随着学界对各并行策略的深入研究，使用各并行策略的复杂组合（称为混合并行）进行大模型训练成为必要模式。混合并行的策略调优过程十分复杂，为了提高可用性，学界提出了自动并行算法自动搜索、调优混合并行策略。然而，现有混合并行、自动并行系统无法高效处理 MoE 大模型，他们缺少对 MoE 模型训练稀疏激活、计算负载不均且动态变化的特征的针对性设计。

SmartMoE 带来解决方案

为了实现 MoE 模型的高效训练，SmartMoE 系统对 MoE 模型的分布式训练策略进行了全面的支持。对于常用的四种并行策略（数据并行、流水线并行、模型并行和专家并行），SmartMoE 系统做出了全面的支持，允许用户对它们任意组合；在论文投稿时（2023 年 1 月），尚未有其他系统能做到这一点（如图四所示）。

为了处理 MoE 的动态计算负载，SmartMoE 独特设计了专家放置（Expert Placement）策略，在经典并行策略组合的基础上，实现了动态负载均衡。如图五所示，MoE 模型不同的计算负载（workload）会造成不同专家的过载；使用不同的专家放置顺序，能在特定负载下实现节点间负载均衡。

图四：开源分布式系统对各并行策略的支持情况对比

图五：不同 MoE 训练负载需要不同专家放置策略

为了提高 MoE 模型复杂混合并行策略的易用性，SmartMoE 设计了一套轻量级且有效的两阶段自动并行算法。现有自动并行系统只能在训练开始前进行策略搜索，无法根据负载情况动态调整策略。简单的将现有自动并行搜索算法在训练过程中周期性使用亦不可行，因为训练过程中的并行策略搜索和调整对延迟要求很高，现有算法的开销过大。

SmartMoE 独创性地将自动并行搜索过程分为两阶段：

训练开始前，使用经典算法搜索，获得一个较小的候选策略集合
训练过程中，根据当前负载，在候选策略集合中动态调整，由于候选策略集合大小有限，此过程的开销可以得到控制。

最终，SmartMoE 实现了轻量级且有效的自动并行，达到了业界领先的性能。

在性能测试中，SmartMoE 在不同模型结构、集群环境和规模下均有优异的表现。例如，在 GPT-MoE 模型的训练性能测试中，相较于 FasterMoE，SmartMoE 有最高 1.88x 的加速比。值得注意的，在对每一轮迭代的性能观察中发现，动态的并行策略调整是必要的，且需要使用合适的调整频率，如图六所示。更多实验细节请参考论文原文。

图六：MoE 模型在不同迭代的运行时间。”dyn.X” 表示每 X 轮进行一次策略调整。

图七：SmartMoE 在 GPT-MoE 模型端到端训练中的性能提升

结语

SmartMoE 现已开源，开发者维护活跃，且仍在持续优化迭代，助力 MoE 大模型的发展。这是 PACMAN 实验室继 FastMoE，[PPoPP’22] FasterMoE，[PPoPP’22] BaGuaLu 后在大模型分布式训练系统上的又一次探索。

Tags：SmartMoE 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

清华发布SmartMoE：一键实现高性能MoE稀疏大模型分布式训练

机器之心专栏机器之心编辑部PACMAN 实验室探索大模型分布式训练系统再出新成果。2023 年 7 月，清华大学计算机系 PACMAN 实验室发布稀疏大模型训练系统 SmartMoE，支持用户一键...【详细内容】

2023-08-07　　Search: SmartMoE 点击:(228)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个