LeCun转推，PyTorch GPU内存分配有了火焰图可视化工具

时间：2022-10-24 15:57:59 来源：网易号作者：机器之心Pro

机器之心报道

编辑：杜伟

想要了解自己的 PyTorch 项目在哪些地方分配 GPU 内存以及为什么用完吗？不妨试试这个可视化工具。

近日，PyTorch 核心开发者和 FAIR 研究者 Zachary DeVito 创建了一个新工具（添加实验性 API），通过生成和可视化内存快照（memory snapshot）来可视化 GPU 内存的分配状态。这些内存快照记录了内存分配的堆栈跟踪以及内存在缓存分配器状态中的位置。

接下来，通过将这些内存快照可视化为火焰图（flamegraphs），内存的使用位置也就能一目了然地看到了。

图灵奖得主 Yann Lecun 也转推了这个工具。

Twitter@Zachary DeVito

下面我们来看这个工具的实现原理（以第一人称「我们」描述）。

生成快照

首先，我们必须记录每次分配的堆栈帧信息。

记录这些堆栈跟踪的速度非常快（每次分配约 1 us，正常的 PyTorch 内核调用需要至少 8 us），但我们默认将其关闭。而启用之后，我们可以分配一些内存并拍摄快照。

快照记录了整个分配器的状态，如下所示。

快照是具有以下结构的 Segment 字典列表。

Segments 是直接从 cudaMalloc 请求并由分配器缓存的内存。因此，我们可以只使用这些 segments 中的一部分，缓存分配器将它们分为一个或更多个 Block。所有的块始终保持相同的分配状态。同时，使用_record_memory_history，每个块还将记录一个 History 对象，该对象会记住块中最后一次分配的位置，包括作为 Frames 列表的堆栈跟踪。

对于 active_allocated 块，它其中存在的内容和当前分配的内容将有一个历史记录。对于 inactive 块，可能会有多个条目来记录块内存中最后存在的内容。可能不止一个条目的原因在于分配器在空闲时会合并分割块，并记录下两次拆分的历史。为了避免出现大量的历史记录，我们只保留不与任何更新块重合的块的历史记录。

保存快照

快照因自身设计而可以之后离线查看。

文件_memory_viz.py 可以直接用作交互式命令来处理保存的快照。

可视化快照

_memory_viz.py 工具也可以生成内存的可视化火焰图。

可视化图将分配器中所有的字节（byte）按不同的类来分割成段，如下图所示（原文为可交互视图）。

火焰图可视化是一种将资源（如内存）使用划分为不同类的方法，然后可以进一步细分为更细粒度的类别。

memory 视图很好地展现了内存的使用方式。但对于具体地调试分配器问题，首先将内存分类为不同的 Segment 对象是有用的，而这些对象是分配轨迹的单个 cudaMalloc 段。

比较快照

该可视化器还可以生成显示在两个快照之间添加和删除的段的可视化。例如，我们可以使用更大的输入重新运行模型，并查看分配器如何为更大的临时对象请求更多内存。

比较视图仅显示新段，这有助于找出哪些代码路径提示分配更多内存。

$ Python/ target=_blank class=infotextkey>Python _memory_viz.py compare snapshot.pickle snapshot2.pickle -o compare.svgonly_before = []only_after = [140636932014080, 140636827156480, 140634912456704, 140634839056384, 140634843250688, 140634841153536, 140634866319360, 140634811793408, 140634845347840, $ 140636806184960, 140636778921984, 140634878902272]

原文链接：https://zdevito.Github.io/2022/08/16/memory-snapshots.html

Tags：PyTorch 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

突破Pytorch核心点，优化器！！

今儿咱们聊聊pytorch中的优化器。优化器在深度学习中的选择直接影响模型的训练效果和速度。不同的优化器适用于不同的问题，其性能的差异可能导致模型更快、更稳定地收敛，或者...【详细内容】

2024-01-05　　Search: PyTorch 点击:(91)　　评论:(0)　　加入收藏

突破Pytorch核心点，CNN ！！！

创建卷积神经网络（CNN），很多初学者不太熟悉，今儿咱们来大概说说，给一个完整的案例进行说明。CNN 用于图像分类、目标检测、图像生成等任务。它的关键思想是通过卷积层和池化层来...【详细内容】

2024-01-03　　Search: PyTorch 点击:(90)　　评论:(0)　　加入收藏

PyTorch团队重写「分割一切」模型，比原始实现快八倍

编辑：陈萍我们该如何优化 Meta 的「分割一切」模型，PyTorch 团队撰写的这篇博客由浅入深的帮你解答。从年初到现在，生成式 AI 发展迅猛。但很多时候，我们又不得不面临一个难题：如...【详细内容】

2023-11-23　　Search: PyTorch 点击:(253)　　评论:(0)　　加入收藏

基于Pytorch的从零开始的目标检测

引言目标检测是计算机视觉中一个非常流行的任务，在这个任务中，给定一个图像，你预测图像中物体的包围盒(通常是矩形的) ，并且识别物体的类型。在这个图像中可能有多个对象，而且现...【详细内容】

2023-11-10　　Search: PyTorch 点击:(202)　　评论:(0)　　加入收藏

深度学习中实现PyTorch和NumPy之间的数据转换知多少？

在深度学习中，PyTorch和NumPy是两个常用的工具，用于处理和转换数据。PyTorch是一个基于Python的科学计算库，用于构建神经网络和深度学习模型。NumPy是一个用于科学计算的Python...【详细内容】

2023-10-13　　Search: PyTorch 点击:(68)　　评论:(0)　　加入收藏

Star量近8万，大火AutoGPT星标超PyTorch，网友：看清它的局限性

机器之心编辑部英伟达 AI 科学家 Jim Fan 表示，「AutoGPT 只是一项有趣的实验，虽然火爆但并不意味着可以投入生产。」他的观点得到了很多人的附和和现身说法。仿佛一夜之间，AI...【详细内容】

2023-04-18　　Search: PyTorch 点击:(172)　　评论:(0)　　加入收藏

PyTorch将塑造生成式人工智能系统（GPT-4及以上）的未来

PyTorch不仅用于研究，还用于生产目的，每天有数十亿个请求得到服务和训练。...【详细内容】

2023-04-13　　Search: PyTorch 点击:(172)　　评论:(0)　　加入收藏

微信基于 PyTorch 的大规模推荐系统训练实践

本文将介绍微信基于 PyTorch 进行的大规模推荐系统训练。推荐系统和其它一些深度学习领域不同，仍在使用 Tensorflow 作为训练框架，被广大开发者诟病。虽然也有使用 PyTorch 进...【详细内容】

2023-04-04　　Search: PyTorch 点击:(240)　　评论:(0)　　加入收藏

PyTorch张量的四种乘法运算

在PyTorch中有四种类型的乘法运算（位置乘法、点积、矩阵与向量乘法、矩阵乘法），非常容易搞混，我们一起来看看这四种乘法运算的区别。位置乘法先构建两个张量a，b他们都是4行5列。a...【详细内容】

2023-03-21　　Search: PyTorch 点击:(255)　　评论:(0)　　加入收藏

PyTorch 并行训练 DistributedDataParallel 完整代码示例

使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。随着 DNN 和数据集规模的增加，训练这些模型的计算和内存需求也会增加。这使得在计算资源有限...【详细内容】

2023-02-19　　Search: PyTorch 点击:(282)　　评论:(0)　　加入收藏

▌简易百科推荐

Netflix 是如何管理 2.38 亿会员的

作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员的演讲。她在...【详细内容】

2024-04-08　　　　InfoQ　　Tags:Netflix 　点击:(2)　　评论:(0)　　加入收藏

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(7)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(13)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(9)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(11)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(9)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对