什么是 Page Cache？为什么需要 Page Cache？

时间：2023-01-28 15:22:54 来源：今日头条作者：寻找爱笑的猫

应用程序产生Page Cache的逻辑示意图

红色的地方就是 Page Cache，很明显，Page Cache是内核管理的内存，也就是说，它属于内核不属于用户。

如何观察 Page Cache? 在 linux 上直接查看 Page Cache 的方式有很多，包括 /proc/meminfo、free 、/proc/vmstat 命令等，它们的内容其实是一致的。拿 /proc/meminfo 命令举例看一下:

$ cat /proc/meminfo

...

Buffers: 1224 kB

Cached: 111472 kB

SwapCached: 36364 kB

Active: 6224232 kB

Inactive: 979432 kB

Active(anon): 6173036 kB

Inactive(anon): 927932 kB

Active(file): 51196 kB

Inactive(file): 51500 kB

...

Shmem: 10000 kB

...

SReclAImable: 43532 kB

根据上面的数据，你可以简单得出这样的公式（等式两边之和都是 112696 KB）：

Buffers + Cached + SwapCached = Active(file) + Inactive(file) + Shmem + SwapCached

那么等式两边的内容就是我们平时说的 Page Cache。请注意你没有看错，两边都有Swap Cached，之所以要把它放在等式里，就是说它也是 Page Cache 的一部分。等式右边这些项把 Buffers 和 Cached 做了一下细分，分为了 Active(file)，Inactive(file) 和 Shmem，因为 Buffers 更加依赖于内核实现，在不同内核版本中它的含义可能有些不一致，而等式右边和应用程序的关系更加直接，所以我们从等式右边来分析.

在 Page Cache 中，Active(file)+Inactive(file) 是 File-backed page（与文件对应的内存页），是你最需要关注的部分。因为你平时用的 mmap() 内存映射方式和 buffered I/O来消耗的内存就属于这部分，最重要的是，这部分在真实的生产环境上也最容易产生问题，我们在接下来的课程案例篇会重点分析它。

而 SwapCached 是在打开了 Swap 分区后，把 Inactive(anon)+Active(anon) 这两项里的匿名页给交换到磁盘（swap out），然后再读入到内存（swap in）后分配的内存。由于读入到内存后原来的 Swap File 还在，所以 SwapCached 也可以认为是 File-backed page，即属于 Page Cache。这样做的目的也是为了减少 I/O。

通过下面简单的示意图明白 SwapCached 是怎么产生的:

SwapCached 只在 Swap 分区打开的情况下才会有，而我建议你在生产环境中关闭 Swap 分区，因为 Swap 过程产生的 I/O 会很容易引起性能抖动。

Page Cache 中的 Shmem 是指匿名共享映射这种方式分配的内存（free 命令中 shared 这一项），比如 tmpfs（临时文件系统），这部分在真实的生产环境中产生的问题比较少。

free 命令中的 buff/cache 究竟是指什么呢？

free 命令也是通过解析 /proc/meminfo 得出这些统计数据的，这些都可以通过 free 工具的源码来找到。free 命令的源码是开源，你可以去看下 procfs里的 free.c 文件，源码是最直接的理解方式，它会加深你对 free 命令的理解。

$ free -k

total used free shared buff/cache availabl

Mem: 7926580 7277960 492392 10000 156228 43068

Swap: 8224764 380748 7844016

通过 procfs 源码里面的proc/sysinfo.c这个文件，你可以发现 buff/cache 包括下面这几项：

buff/cache = Buffers + Cached + SReclaimable

通过前面的数据我们也可以验证这个公式: 1224 + 111472 + 43532 的和是 156228。

free 命令中的 buff/cache 是由 Buffers、Cached 和 SReclaimable 这三项组成的，它强调的是内存的可回收性，也就是说，可以被回收的内存会统计在这一项。

SReclaimable 是指可以被回收的内核内存，包括 dentry 和 inode 等。

掌握了 Page Cache 具体由哪些部分构成之后，在它引发一些问题时，你就能够知道需要去观察什么。比如说，应用本身消耗内存（RSS）不多的情况下，整个系统的内存使用率还是很高，那不妨去排查下是不是 Shmem(共享内存) 消耗了太多内存导致的。

为什么需要 Page Cache？

第一张图你其实已经可以直观地看到，标准 I/O 和内存映射会先把数据写入到 Page Cache，这样做会通过减少 I/O 次数来提升读写效率。

看一个具体的例子。首先，我们来生成一个 1G 大小的新文件，然后把 Page Cache 清空，确保文件内容不在内存中，以此来比较第一次读文件和第二次读文件耗时的差异。具体的流程如下。

先生成一个 1G 的文件：

dd if = /dev/zero of = /home/test/dd.outbs = 4096 count = ((1024*256))

2 . 清空 Page Cache，需要先执行一下 sync 来将脏页同步到磁盘再去 drop cache。

sync && echo 3 > /proc/sys/vm/drop_caches

3 . 第一次读取文件的耗时如下：

$ time cat /home/test/dd.out &> /dev/null

real 0m5.733s

user 0m0.003s

sys 0m0.213s

再次读取文件的耗时如下：

$ time cat /home/test/dd.out &> /dev/null

real 0m0.132s

user 0m0.001s

sys 0m0.130s

第二次读取文件的耗时远小于第一次的耗时，这是因为第一次是从磁盘来读取的内容，磁盘 I/O 是比较耗时的，而第二次读取的时候由于文件内容已经在第一次读取时被读到内存了，所以是直接从内存读取的数据，内存相比磁盘速度是快很多的。这就是 Page Cache 存在的意义：减少 I/O，提升应用的 I/O 速度。

Tags：Page Cache 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

什么是 Page Cache？为什么需要 Page Cache？

应用程序产生Page Cache的逻辑示意图红色的地方就是 Page Cache，很明显，Page Cache是内核管理的内存，也就是说，它属于内核不属于用户。如何观察 Page Cache? 在 Linux 上直接查...【详细内容】

2023-01-28　　Search: Page Cache 点击:(200)　　评论:(0)　　加入收藏

▌简易百科推荐

Netflix 是如何管理 2.38 亿会员的

作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员的演讲。她在...【详细内容】

2024-04-08　　　　InfoQ　　Tags:Netflix 　点击:(3)　　评论:(0)　　加入收藏

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(8)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(15)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(11)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(8)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(14)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(10)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(12)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(13)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(6)　　评论:(0)　　加入收藏

推荐资讯

程序化交易迎来新规	证监会详解“1+N”政
一图看懂上市、退市、	证监会四方面严格强制
A股新“国九条”出台，	北京技术人员月平均薪
人工智能耗电凶猛，科技	明确中国资本市场发展