您当前的位置：首页 > 电脑百科 > 程序开发 > 编程百科

编译器的自动内存管理，静态的GC算法

时间：2022-12-27 13:42:02 来源：今日头条作者：底层技术栈

+ 加入收藏

C语言几乎唯一的缺点就是，需要手动管理内存。

抛开这点之外，我觉得其他语言都不如C语言[呲牙]

所以，虽然自动内存管理比较复杂，但我还是给scf编译器框架加了静态的GC算法。

在编程方面，自动内存管理一般叫GC算法，是英文GarbageCollection的缩写。

栈内存的管理比较简单，是由编译器根据函数调用链而自动管理的。

堆内存的管理，在C语言里是由程序员手动管理的。

因为程序员管理错了堆内存而导致的BUG，是C语言最常见、也最难搞的BUG。

所以，后来的编程语言都对内存管理做了简化，例如C++的智能指针。

C++的智能指针，是一种半自动的内存管理机制：

它把一个堆内存的指针放在一个类的成员变量里，利用局部对象离开作用域时的析构函数，来完成堆内存的释放。

所以C++的效率比其他语言快得多，因为局部对象什么时候离开作用域，是可以在编译时就确定的，不需要在运行时做额外的处理。

也就是说，C++的智能指针是静态的GC算法。

在编译时就处理好的算法，是静态的算法。

在运行时才会处理的算法，是动态的算法。

动态的算法依赖于运行时状态，对程序的速度有较大的影响：

1，因为框架在处理对象内存的回收时，用户程序不得不暂停，

2，否则两边发生竞争条件，那就是跟C语言的野指针一样的BUG。

写过C语言的都知道，多线程的野指针是非常难查的BUG，因为程序跑飞了不知道会core在哪里，而且BUG也不是必现的。

为什么程序员怕有主控软件的交通工具？

因为程序员知道多线程+竞争条件+野指针==随机crash+ 事后找不到第一现场[捂脸]

动态的GC算法，为了避免出现第2种情况，那就只能使用第1种情况。

1，GC算法有必要是动态的吗？

实际上没必要，否则C语言怎么手动管理内存的。

C语言的free()代码肯定是在编译之前就写好了的！

只要写对了free()位置，C语言既不会出BUG，也不会内存泄漏。

所以，编译器只要代替程序员添加free()，就可以自动管理内存了。

free()的添加位置，当然是在变量离开作用域时。

如上图：

有4个对象变量m0, m1, m2, m3，

mAIn()函数返回时也是它们离开作用域的时候，所以在main函数的结尾自动添加释放代码，程序员就不用手动释放内存了。

2，怎么检测变量什么时候离开作用域？

在编译器的后端：

1）代码的每个基本块都是流程图上的一个节点，

2）基本块之间通过跳转联系起来，

3）基本块内部的代码是顺序运行的。

所以，释放内存的代码需要加在两个基本块之间。

上述main()函数的流程图

上图是前面的main()函数的流程图。

创建一个对象分两步：第一步调用malloc()申请内存，第二步调用构造函数__init()初始化内存。

（为了简化代码，我没有做返回值为NULL的检查）

在第8个基本块 m3 = m0 + m1 + m2 之后，m0, m1, m2 就不再使用了，也就是它们3个离开作用域了。

即使在源代码层面这时m0, m1, m2依然处于main()函数的作用域内，但对后端来说它们已经离开作用域了，因为之后的基本块都不再使用它们了。

所以，对m0, m1, m2的释放代码，应该加在第8和第9号基本块之间。

第9号基本块会把指针m3->data赋值给dd，这会让（m3->data）内存的引用计数+1。

对m3的释放代码可以放在第9和第10之间，之后不会再使用m3了：这会让m3->data的引用计数-1。

这时，内存数据有且只有1个引用计数（一开始自带1个），同时有且只有指针dd指向它。

指针dd的释放在for循环之后，即第10和11之间：这里的释放会让引用计数减少到0。

在引用计数为0时，要调用free()函数，把内存还给系统。

GC算法的要点有3个：

1）什么时间调用的malloc()，

2）什么时间有指针的赋值，要把引用计数+1，

3）什么时间离开作用域，也就是后续不再使用对象变量，要把引用计数-1，如果减少之后为0，就调用free().

3，跨函数的指针分析，

有时候，申请的内存并不会在当前函数内释放，而是返回给更上层的主调函数。

这时的GC算法，就需要跨越函数的调用链，进行指针分析。

mat类的构造函数__init()

前面的mat对象的成员指针m3->data，就是需要跨函数分析的指针。

它是在构造函数里申请的内存，因为是成员变量，所以要在析构函数里释放。

如果是局部变量，就在当前函数内释放：因为局部变量的作用域就是当前函数。

mat类的声明，成员变量部分

成员变量的有效时间，是伴随着当前对象的。

局部变量的有效时间，是伴随着当前函数的。

成员变量在构造函数返回时依然有效，所以要把它是malloc()申请的这个信息，传递到更上层的函数。

这样：

1）在main()里才知道它是malloc()申请的，

2）在 dd = m3->data 时才知道给它指向的内存引用计数+1，

3）在释放m3时，析构函数把引用计数-1之后，引用计数才不为0：内存依然是有效的，这时指针dd依然指向它。

否则，dd就是野指针了！

mat类的析构函数__release()

函数调用链，在语义分析时是很容易确定的。

抽象语法树AST上的每一个函数调用，必然有一个主调函数、有一个被调函数。

主调和被调，构成了整个程序的函数调用图：

最顶层的是main()函数，最底层的是malloc()函数。

以malloc为起点、main为终点，做图的宽度优先搜索，就可以获取整个调用链。

然后从离malloc最近的函数开始，一层层的分析就行了。

函数调用图

一定是用图的宽度优先搜索（BFS）！

不能用深度优先搜索（DFS），因为一个上层函数可能调用多个下层函数，而这多个下层函数里都malloc了内存。

如上图：

如果是DFS，分析顺序是A->D，这样D调用B而申请的内存就会被漏过去了。

如果是BFS，分析顺序是A->B->C->D->E，这样任何函数申请的内存如果传递给上层，（在分析上层函数时）都不会被漏过去。

4，递归调用的指针分析，

上图的C()和E()之间的互相调用构成递归，表现为函数调用图上的回路。

这种情况下，两个函数里申请的内存会互相传递，属于最复杂的一种情况！

在编译器里的处理方法是：

do {

delivery = check_delivery();

} while (0 == delivery);

用do while循环检查内存的传递情况，记录传递的变量和计数，直到不再发生变化为止。

最后，就是在合适的位置添加free()代码了：

最后的总是最简单的，the last is the simplest.

有兴趣了解细节的，可以看我写的scf编译器框架的GC算法。

编译原理（龙书）里没有这方面的算法，这是我自己想出来的。

听说又像牛顿跟莱布尼茨一样，跟Rust的作者相见略同了是吧[捂脸]

我先起个直白的名字叫static GC.

老外就那样，有一点点的改进就猛吹[捂脸]

神经网络都能被辛顿吹成deep learning。

Tags：编译器点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

C++模板背后的黑箱操作：编译器

一、编译器如何处理模板1.模板代码的处理为了理解模板的复杂性，你需要了解编译器是如何处理模板代码的。当编译器遇到模板方法定义时，它会进行语法检查，但实际上不会编译模板。...【详细内容】

2023-12-08　　Search: 编译器点击:(220)　　评论:(0)　　加入收藏

C++编译优化：如何优化编译器的输出代码质量

在当今的软件开发世界中，C++以其高效的性能和广泛的应用领域而受到开发者的青睐。然而，随着项目规模的不断扩大和性能需求的日益增长，如何优化编译器的输出代码质量成为了亟待...【详细内容】

2023-11-16　　Search: 编译器点击:(221)　　评论:(0)　　加入收藏

编译器的并行化与多线程优化

在计算机科学领域，编译器是将高级语言代码转换成机器语言的重要工具。编译器的性能对于程序的执行效率具有重要影响。为了提高编译器的性能，研究人员一直致力于并行化和多线程...【详细内容】

2023-11-16　　Search: 编译器点击:(202)　　评论:(0)　　加入收藏

C 语言编译器（IDE）初学者指南：选择适合你的工具

一、前言在当今的软件开发世界中，C语言仍然是一种非常重要的编程语言，被广泛用于系统编程，游戏开发，嵌入式系统等领域。对于C语言的初学者来说，选择一款合适的编译器（IDE）是他们学...【详细内容】

2023-11-14　　Search: 编译器点击:(239)　　评论:(0)　　加入收藏

编译器前端与后端：理解编译过程中的不同阶段

编译器是将高级程序语言转换为机器语言的重要工具。在编译过程中，编译器可以被划分为前端和后端两个主要部分。前端负责处理源代码的词法分析和语法分析，而后端则负责代码优化...【详细内容】

2023-11-14　　Search: 编译器点击:(217)　　评论:(0)　　加入收藏

你知道什么是编译器设计中的中间表示（IR）吗？

IR（IntermediateRepresentation）中间表达是编译器中非常重要的数据结构。编译器在完成前端工作后，会生成其自定义的IR，并在此基础上进行各种优化算法，最终生成目标代码。从广义上...【详细内容】

2023-09-22　　Search: 编译器点击:(219)　　评论:(0)　　加入收藏

Intermediate Representation (IR) 在编译器中的多层实现

编译器是将源代码转换为目标代码的关键工具，而IR 是编译器中的核心数据结构。IR的作用是将源代码转换为目标代码，并在此过程中执行各种优化，以提高目标代码的质量和性能。在编...【详细内容】

2023-09-12　　Search: 编译器点击:(267)　　评论:(0)　　加入收藏

挑战用 500 行 Python 写一个 C 编译器

作者 | Theia Vogel译者｜Ric Guan 责编 | 屠敏出品 | CSDN（ID：CSDNnews）几月前，在挑战用 46 行 Python 写有符号距离函数（Signed Distance Function）后，我为自己设下了用 500 行 Pyt...【详细内容】

2023-09-08　　Search: 编译器点击:(356)　　评论:(0)　　加入收藏

2023年全网最火的前端5大 markdown 解析器与编译器！

今天给大家带来的主题是盘点2023年全网最火的 markdown 解析器和编译器，话不多说，直接进入正题。1.Marked.js1.1 什么是marked.jsmarked.js是markdown解析器和编译器，其具有以...【详细内容】

2023-08-20　　Search: 编译器点击:(269)　　评论:(0)　　加入收藏

大牛最新研究！提速Rust编译器！

作者 | Nethercote编译 | 王瑞平、言征Nethercote是一位研究Rust编译器的软件工程师。最近，他正在探索如何提升Rust编译器的性能，在他的博客文章中介绍了Rust编译器是如何将代...【详细内容】

2023-07-30　　Search: 编译器点击:(279)　　评论:(0)　　加入收藏

▌简易百科推荐

Netflix 是如何管理 2.38 亿会员的

作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员的演讲。她在...【详细内容】

2024-04-08　　　　InfoQ　　Tags:Netflix 　点击:(2)　　评论:(0)　　加入收藏

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(7)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(13)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(9)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(11)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(9)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对

站内最新

栏目相关

· Netflix 是如何管理 2.38 亿会员的

· 为什么都说 HashMap 是线程不安全的？

· 如何从头开始编写LoRA代码，这有一份教程

· 这样搭建日志中心，传统的ELK就扔了吧！

· Kubernetes 究竟有没有 LTS？

· 三分钟学会负载均衡的重要性与Ribbon集成

· 手把手教你解决推荐系统中的位置偏差问题

· 有了这五个方法，轻松处理异步任务

· Elasticsearch 性能优化详解

· 有了LLM，所有程序员都将转变为架构师？

· 2024“跨平台”不香了？知名开源项目淘汰Xamarin，转向原生开发

· Mybatis参数映射搞不明白？来试试这个工具吧！

· 十个前端冷门但好用的前端工具函数库

· 前端开发：Visual Studio Code和Visual studio如何选？

站内热门