您当前的位置：首页 > 电脑百科 > 程序开发 > 编程百科

YARN 在字节跳动的优化与实践

时间：2020-09-10 10:04:15 来源：作者：

+ 加入收藏

本文从利用率提升、多负载场景优化、稳定性提升、异地多活四个方面介绍了字节跳动在四年来对 Hadoop YARN 进行的一系列的优化，以及生产环境中的实践经验。

1.YARN 简介

1.1 YARN 生态圈

YARN (Yet Another Resource Negotiator) 是 Hadoop 集群的资源管理系统，是 Hadoop 生态中非常重要的成员项目。

一般来说，离线生态可以分为五层：

最底层是裸金属层，由众多物理节点组成，每个节点上运行着通用的操作系统。
次底层是集群资源管理层， YARN 就处在这一层中。
再往上是分布式计算引擎层， MR/Spark/Flink 等计算引擎处于这层，为了能让业务同学更加低成本的写计算任务，各个引擎都支持 SQL 功能。
再往上是作业托管层，用来提交 ad-hoc 的作业，管理周期性的批处理作业，管理长时间运行的流式作业。
最上层是用户逻辑层，如数据日报，数据分析，模型训练等.

1.2 YARN 架构

上图中灰色背景区域是 YARN 的主要架构，主要包含两种角色：

ResourceManager整个集群的大脑，负责为应用调度资源，管理应用生命周期。对用户提供接口，包括命令行接口，API, WebUI 接口。可以同时存在多个 RM，但同一时间只有一个在工作，RM 之间通过 ZK 选主。
NodeManager为整个集群提供资源，接受 Container 运行。管理 Contianer 的运行时生命周期，包括 Localization，资源隔离，日志聚合等。

YARN 上运行的作业:

在运行时会访问外部的数据服务，常见的如 HDFS，Kafka 等
会在运行结束后由 YARN 负责将日志上传到 HDFS 中

2.字节跳动对 YARN 的定制

字节跳动的 YARN 是在 16 年从社区当时最新的 2.6.0 版本中 fork 出来的，主要承载着公司内的离线作业/流式作业/模型训练三大场景。由于公司内的 YARN 服务规模巨大、场景复杂，遇到了各种问题，在社区版本没有提供解决方案之前，内部研发同学定制了许多内容来解决具体问题，经过 4 年来上千次的修改，公司内的版本已经跟社区的版本相差较大。

今天给大家介绍一些比较关键的定制，希望能给大家带来一些启发。这些关键定制主要包括四个方面：

利用率提升: 包括分配率提升和物理使用率提升。
多种负载场景优化: 包括批处理 / 流式 / 模型训练三种场景下的体验提升。
稳定性提升: 包括摆脱对 HDFS 强依赖, Container 分级与驱逐, 非受控 Container 管理。
异地多活: 包括统一的 YARN Client 和 UI 等内容。

2.1 利用率提升

2.1.1 多线程版本的 Fair Scheduler

社区原生版本的 FairScheduler 是单线程的，在节点数量较多时，是整体集群最大的瓶颈.

我们通过将 FairScheduler 改造为并发的多线程版本，并将调度器内部的锁拆分为更加细粒度的读锁和写锁，将调度吞吐提升 7 倍以上，在生产环境中达到每秒 3K 个 Container 的速度(未触及性能瓶颈)。

2.1.2 考虑节点 DRF 的调度

原生的 YARN 在调度时只考虑资源是否满足，经常会出现一个节点 CPU 被打满，但是内存还有剩余的情况。

我们引入节点 DRF(Dominant Resource Fairness)机制，计算每个节点的剩余资源的主资源，当调度的 Task 的主资源与节点的主资源不匹配时，先延迟此次调度，直到一定次数后再放松约束。

通过引入这个机制，集群资源的碎片化问题大幅降低，生产环境中可以达到 CPU 和内存的 24 小时平均利用率都在 90%以上。

2.1.3 提升单集群规模

单个集群的规模越大，就可以有更多的用户和作业使用这个集群，这个集群的利用率也会更高。但是原生的 YARN 在达到 5K 节点规模时开始出现各种问题，比如说一次简单的切主可能会导致整个集群雪崩。

我们为提升单集群规模做了一系列的优化。

首先，通过对 YARN 内部事件梳理调整，精准的修改了一些事件处理逻辑。
然后，将 NodeManager 节点的心跳机制改为根据 ResourceManager 的压力动态调整。
之后，修改内存单位(int->long)突破单个集群 21 亿 MB 的限制
再之后，通过对切主过程进行深度优化, 将切主时间控制在秒级

当然还有很多其它的细节优化不再一一列举，最终的效果是让单个生产集群达到了 2 万节点的规模。

2.1.4 与流式&在线服务混部

公司内离线的资源全天都比较紧张，而流式作业和在线服务的资源使用量随着用户的行为，在时间上有明显的波峰波谷，在凌晨时通过混部的方式将流式和在线富余的资源提供给离线可以全面的提升利用率。

我们通过将 NodeManager 改造为可以根据宿主机的富余资源动态的调整的 NM'，来达到与流式作业和在线服务的混部，为离线提供更多资源的目的。

目前生产环境中已有数万台节点进行了混部，混部后将原机器的 CPU 利用率绝对值提升了 20%以上。

2.1.5 Smart Resource : 在运行时/重启时调整资源

原生的 YARN 中，用户申请的资源和实际使用的资源经常会出现比较大的偏差, 导致出现大量的资源浪费的情况，为此我们开发了一整套的资源动态调整方案，可以将申请的资源调整到接近于实际使用资源的数值。

并且，在实际使用中发现，如果资源调整必须以一个核为最小粒度的话，还是会出现很严重的浪费，比如用户真实的需求可能是 0.001 个核*1000，原生的 YARN 只能分配 1000 个核，就白白浪费了 999 个核。我们开发了以千分之一核为最小粒度的功能，可以有效的减少资源的浪费。并且千分之一核与资源动态调整结合，可以更加精细化的调整资源。

2.2 多种负载场景优化

字节跳动的 YARN 承载了公司内的批处理 / 流式 / 模型训练三大场景，由于 YARN 天生是为批处理而设计的，很多地方与流式 / 模型训练场景并不匹配，为了给这些场景更好的体验，需要做一些定制工作。

2.2.1 YARN Gang Scheduler 调度器

流式作业和训练作业的调度需求与批处理有很大的不同：批处理强调的是高吞吐，而流式/训练类型的作业更加强调低延迟和全局视角。为了弥补原生 YARN 在低延迟和全局视角上的缺陷，我们开发了一个全新的调度器 Gang Scheduler。

Gang Scheduler 提供了一个 All-or-Nothing (一次全交付或不交付)的语义，如作业申请 1000 个 container，那么要么直接返回 1000 个 container，要么就返回失败，并提示失败的原因。这样可以有效的避免两个作业都只拿到一半的资源，谁也无法启动的互锁局面。

除此之外，Gang Scheduler 还有个特性是超低延迟，它可以在毫秒级给出 All-or-Nothing 的结论，这样可以大大缓解流式作业在重启时的 lag 积压问题。

最重要的是，Gang Scheduler 为流式作业和训练作业提供了全局视角，每个作业可以通过配置自己定制的强约束和弱约束来达到全局最优的放置策略。其中，强约束是指必须要满足的条件；弱约束是指尽量满足，但确实无法满足时可以接受降级的约束。目前支持的强约束包括节点属性, 高负载等；支持的弱约束包括：节点属性，高负载，Container 打散，Quota 平均，GPU 亲和性等。

2.2.2 更加精细化的 CPU 使用策略

除了开启 YANR 原生默认支持的 CGroup 限制之外，我们还配置了更加丰富的 CGroup 管理策略，比如在 share 模式下支持自定义的最大值限制，支持绑核，支持绑 NUMA 节点等. 通过这些措施，给流式作业和训练作业更加灵活的管控策略，满足不同场景下的隔离或共享需求。

2.2.3 训练场景下的其它定制

对于训练场景，我们还定制了更丰富的内容。包括：

为了更好的隔离性，定制了支持 GPU 和 Ceph 的 Docker
为了更灵活的资源申请，定制了带范围的资源值 (传统的 YARN 资源只有个数, 没有范围，比如多少个 CPU，多少 GB 内存，但在训练场景下，有时希望有范围，比如当需要两个 GPU 卡时，不止希望随意的两张卡，而是希望要一台机器上两个连号的 GPU 卡，比如卡 0 和卡 1 是连号的，而卡 0 和卡 2 不是连号的。这个场景同样也适用于端口号。)
为了更高效的同时使用 CPU 和 GPU 机器，定制了节点属性功能。

2.2.4 跳过高 Load 节点

离线批处理场景经常会遇到"Fetch Failed"的问题，主要来源是本地的磁盘 IOPS 不足，导致 Shuffle Service 卡住，为了缓解这个问题，我们在资源调度的过程中加入目标主机 LoadAvg 的考虑因素，如果一台机器的 LoadAvg 过高，则暂时跳过对其分配新任务. 通过这个机制，将"Fetch Failed"问题降低了约 40%。

2.3 稳定性优化

字节跳动的 YARN 服务规模巨大，在稳定性方面遇到了很多挑战，有很多细节方面的优化, 在这里由于时间有限，挑选几个比较有代表性的优化点跟大家分享一下：

将 HDFS 做成弱依赖对于一般的离线批处理来说，如果 HDFS 服务不可用了，那么 YARN 也没必要继续运行了。但是在字节跳动内部由于 YARN 还同时承载流式作业和模型训练，因此不能容忍 HDFS 故障影响到 YARN。为此，我们通过将 NodeLabel 存储到 ZK 中，将 Container Log 在 HDFS 的目录初始化和上传都改为异步的方式，摆脱了对 HDFS 的强依赖。
Container 分级与驱逐某些 Container 的磁盘空间占用过高，或者将单机 Load 打得非常高，会比较严重的影响到其它 Container 的正常运行，为此，我们为 YARN 定制了 Container 分级与驱逐机制。对于可能会严重影响到其它 Container 的 Container 会进行主动驱逐。对于被驱逐的作业，可申请到独立的 Label 中运行。
非受控 Container 的清理机制由于种种原因，线上总是会出现一些 Container 明明还在运行，但是已经不受 YARN 的管控。通常是由于不正常的运维操作产生，或者机器本身出现故障导致。对于这些 Container 如果不加管制，不仅会让单机的实际资源紧张，有时还会造成 Kafka Topic 的重复消费导致线上事故。为此我们在 YARN 的 NodeManager 中增加了非受控 Container 的清理机制。

2.4 异地多活

随着公司发展迅猛，YARN 也迎来了异地多机房的场景，原生的 YARN 只支持单集群使用, 对用户的使用造成不便，如果每个集群都孤立的提供给用户的话，会让用户使用起来很困难，为此，我们对异地多活做了一些定制工作：

全球统一的 YARN UI 界面为所有的 YARN 用户统一定制了一个 YARN UI 界面，该界面包含全球的所有队列和用户的作业。
放弃数据本地性调度延迟等待当有多个集群时，很难与 HDFS 的数据进行本地性对齐。机房内网络资源富余，数据本地性对性能提升不明显，还会导致集群吞吐下降。
YARN 安全模式为了配合多机房容灾，有时需要主动将部分 YARN 集群设置为不调度新任务的安全模式。

3. 未来工作

未来我们会持续的优化与流式和在线服务的混部工作，包括：

物理利用率提升
更好的隔离
更加可控的杀死率
GPU 资源的混部

同时，我们也会继续完善 YARN Gang Scheduler，包括：

更加丰富的调度谓词
更加低延迟

4. 团队介绍

基础架构 YARN 团队负责字节跳动公司内部离线/流式/模型训练三大场景的资源管理和调度，支撑了推荐/数仓/搜索/广告等众多核心业务，管理着在集群规模、调度吞吐能力、资源利用率、业务复杂性等多个方向上都在业界领先的超大规模集群。

针对公司内的抖音、今日头条等产品重度依赖推荐的特点，团队对调度器进行了深度定制以支持流式(Flink)训练和 GPU 训练等场景，拥有几十项专利技术。同时为了进一步提升集群资源利用率，调度团队已经开启在离线大规模混部，并且预期在不久后会进一步融合 YARN / K8S 等调度系统。

业务扩张，团队长期在北京/杭州招人。简历投递入口: https://job.toutiao.com/s/KcoXsV

欢迎关注字节跳动技术团队

Tags：YARN 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

一篇文章带你看懂Yarn的基本架构

YARN的基本思想YARN的基本思想是将资源管理和作业调度以及监控的功能拆分为单独的守护进程。这种架构思想是拥有一个全局的ResourceManager（RM）和每个应用程序的ApplicationMa...【详细内容】

2021-09-17　　Tags: YARN 点击:(74)　　评论:(0)　　加入收藏

大数据开发-Yarn的工作原理

本期给大家带来的是Yarn的工作原理相关知识点，作为大数据开发中众多框架中的一个，Yarn为什么会如此重要以至于要单独开一期来说？下面就为你揭晓Yarn的工作原理！一、什么是Yar...【详细内容】

2021-04-26　　Tags: YARN 点击:(121)　　评论:(0)　　加入收藏

在 Ubuntu 和其他 Linux 发行版上使用 Yarn

本速成教程向你展示了在 Ubuntu 和 Debian Linux 上安装 Yarn 包管理器的官方方法。你还将学习到一些基本的 Yarn 命令以及彻底删除 Yarn 的步骤。• 来源：linux.cn &bu...【详细内容】

2020-10-23　　Tags: YARN 点击:(151)　　评论:(0)　　加入收藏

YARN 在字节跳动的优化与实践

本文从利用率提升、多负载场景优化、稳定性提升、异地多活四个方面介绍了字节跳动在四年来对 Hadoop YARN 进行的一系列的优化，以及生产环境中的实践经验。1.YARN 简介1.1 YA...【详细内容】

2020-09-10　　Tags: YARN 点击:(64)　　评论:(0)　　加入收藏

大数据：Yarn应用程序提交流程

Hadoop向用户提供了三种能力：分布式文件系统HDFS、分布式计算模式MapReduce和资源调度框架YARN。由于Hadoop的影响力较大，在大数据圈里一直把“应用 on YARN”作为一个门槛条...【详细内容】

2019-12-02　　Tags: YARN 点击:(133)　　评论:(0)　　加入收藏

▌简易百科推荐

最完整的Vue教程-从零开始编写可视化大屏

摘要（OF作品展示）OF之前介绍了用python实现数据可视化、数据分析及一些小项目，但基本都是后端的知识。想要做一个好看的可视化大屏，我们还要学一些前端的知识（vue），网上有很多比...【详细内容】

2021-12-27　　项目与数据管理　　　　Tags:Vue 　点击:(1)　　评论:(0)　　加入收藏

程序的执行流程和开发工具介绍

程序是如何被执行的&emsp;&emsp;程序是如何被执行的？许多开发者可能也没法回答这个问题，大多数人更注重的是如何编写程序，却不会太注意编写好的程序是如何被运行，这并不是一个好...【详细内容】

2021-12-23　　IT学习日记　　　　Tags:程序　点击:(9)　　评论:(0)　　加入收藏

单点登录(SSO)看这一篇还不够！这次不慌了

阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案单系统登录解决方案的核心是cookie，cookie携带会话id在浏览器...【详细内容】

2021-12-23　　程序yuan　　　　Tags:单点登录( 　点击:(8)　　评论:(0)　　加入收藏

手把手教你构建一个简单的Eclipse RCP应用

下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse，那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用（总共分为六步）1...【详细内容】

2021-12-22　　阿福ChrisYuan　　　　Tags:RCP应用　点击:(7)　　评论:(0)　　加入收藏

浅析 Token 价值的意义及来源

今天想简单聊一聊 Token 的 Value Capture，就是币的价值问题。首先说明啊，这个话题包含的内容非常之光，Token 的经济学设计也可以包含诸多问题，所以几乎不可能把这个问题说的清...【详细内容】

2021-12-21　　唐少华TSH　　　　Tags:Token 　点击:(9)　　评论:(0)　　加入收藏

在VUE中实现效果"换一换"功能

实现效果：假如有10条数据，分组展示，默认在当前页面展示4个，点击换一批，从第5个开始继续展示，到最后一组，再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】

2021-12-17　　Mason程　　　　Tags:VUE 　点击:(14)　　评论:(0)　　加入收藏

阿里资深软件测试工程师总结的这几点，让小白轻松搞懂性能调优

什么是性能调优？(what) 为什么需要性能调优？(why) 什么时候需要性能调优？(when) 什么地方需要性能调优？(where) 什么时候来进行性能调优？(who) 怎么样进行性能调优？(How) 硬件配...【详细内容】

2021-12-16　　软件测试小p　　　　Tags:性能调优　点击:(19)　　评论:(0)　　加入收藏

抖音防烧屏脚本 – Tasker 脚本分享，适用于 OLED 屏幕

Tasker 是一款适用于 Android 设备的高级自动化应用，它可以通过脚本让重复性的操作自动运行，提高效率。不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖，自...【详细内容】

2021-12-15　　ITBang　　　　Tags:抖音防烧屏　点击:(23)　　评论:(0)　　加入收藏

Rust 核心团队“有毒”

11 月 23 日，Rust Moderation Team（审核团队）在 GitHub 上发布了辞职公告，即刻生效。根据公告，审核团队集体辞职是为了抗议 Rust 核心团队（Core team）在执行社区行为准则和标准上...【详细内容】

2021-12-15　　InfoQ　　　　Tags:Rust 　点击:(24)　　评论:(0)　　加入收藏

实践：使用AutoMeter快速生成API和测试用例的方法

一个项目的大部分API，测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API，复制用例来快速生成，然后做细微调整既可以满足我们的测试需求1.复制API：在菜单发布单...【详细内容】

2021-12-14　　AutoMeter　　　　Tags:AutoMeter 　点击:(20)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为

大数据：Yarn应用程序提交流程