PostgreSQL 15 中值得关注的“大更新”

时间：2022-09-09 09:23:17 来源：CSDN 作者：

摘要：以前，统计信息收集器通过UDP接收统计信息更新，并通过定期将统计信息数据写出到临时文件来共享统计信息数据。当文件达到数十兆字节时，每秒最多写出两次，这会阻止添加其他有用的统计数据。现在，PostgreSQL 15将做出了重大的改变，开始使用动态共享内存来收集统计信息，而不再使用文件和文件系统。

https://www.percona.com/blog/postgresql-15-stats-collector-gone-whats-new/

声明：本文为CSDN翻译，转载请注明来源。

作者 | Jobin Augustine

译者 | 朱珂欣责编 | 屠敏

出品 | CSDN（ID：CSDNnews）

众所周知，PostgreSQL是一个功能强大的开源对象关系数据库系统，它使用并扩展了SQL语言，并结合了许多可安全存储和扩展最复杂数据工作负载的特性。一直以来，PostgreSQL都在业内拥有极高的声誉，它的每一次版本的发布，都能在国内外获得很大的关注度。

2022年6月30日，PostgreSQL全球开发组宣布PostgreSQL 15的第二个beta版本已可供下载，该版本包含将于2022年末发布的PostgreSQL 15正式版本中的所有特性和功能。

很多人将PostgreSQL 15与PostgreSQL 14相比较，就会发现有一个特别的更新——"统计信息收集器"不见了。曾经是无数开发者的开发瓶颈，如今已经永远消失了。作为PostgreSQL 14和更早版本都需要“统计信息收集器”，它存在怎样的问题呢？PostgreSQL 15又新增了什么样的功能？

被舍弃的统计信息收集器

PostgreSQL的统计信息收集器，是一个支持收集和报告服务器活动信息的子系统。它可以对表和索引的访问计数，以此累计统计信息。并且，还可以跟踪每个表中的总行数、每个表的清理和分析动作的信息，以及统计调用用户定义函数的次数和在每次调用中花费的总时间。

但是，PostgreSQL的统计信息收集器同样存在一些问题。

信息传输受到阻力。

由于会话的每个后端是PostgreSQL中的单独进程，因此，收集统计信息并传输并不是容易的事。每个后端将有关它们执行的活动信息发送到单个“统计信息收集器”进程。在过去，这种通信是通过UDP套接字进行，在用户报告的不同类型问题中显示，有三类问题较为明显：统计数据过期；统计数据收集器不运行；自动真空不工作/不启动等。

并且，在过去如果统计数据收集器在特定机器上出现问题，用户其实很难理解出了什么问题。

大量IO出现。

“统计信息收集器”还有一个不利影响——它引起的IO。如果启用DEBUG级别 2，可能会看到不断出现在PostgreSQL 日志中的消息，将导致数据目录所在的装入点上出现大量 IO。

下图是参数值stats_temp_directory所指向的位置。在许多系统上，它将是数据目录中pg_stat_tmp。在Ubuntu/Debian上，它将在/var/run/postgresql中，例如：

PostgreSQL 15中的新动作

面对统计信息收集器带来的弊端，如今，PostgreSQL 15开始使用动态共享内存来收集统计信息，而不再使用文件和文件系统。

正如Andres Freund在文中提及的：

以前，统计信息收集器通过UDP接收统计信息更新，并通过定期将统计信息数据写出到临时文件来共享统计信息数据。这些文件可以达到数十兆字节，并且每秒最多写出两次。这会阻止我们添加其他有用的统计数据。现在，统计信息都存储在共享内存中。可以变化的编号对象的统计信息，存储在由动态共享内存支持的 dshash 哈希表中。固定编号的统计信息，存储在普通共享内存中。pgstat.c 的标题包含体系结构的概述。不再需要统计信息收集器，请将其删除。

显然，参数stats_temp_directory已经消失。因此，不再需要pg_stat_tmp目录了，pg_stat_tmp目录是在数据目录或其他位置中创建的，所有统计文件都在此生成和读取。然而，仍保留它是因为不会破坏许多依赖于该目录的扩展，例如pg_stat_statements。

在加载扩展库之前，目录保持为空。例如，如果我们加载pg_stat_statements库，目录中会出现一个文件。

当然，这些扩展都并非免费的，需要成本。

在新架构中，大多数统计更新时，首先需要在每个进程中本地累积为"pending"（每个后端都有一个后端本地哈希表）。"pending"是指已累积但尚未提交到共享统计系统的待定信息。在提交后或超时后，会被刷入共享内存。

由于统计信息是在有人试图读取时被并发更新的，所以读取一致性就成了问题。为了解决读取一致性的问题=PostgreSQL 15引入了一个新的参数：stats_fetch_consistency。它可以取三个值，none、cache 、snapshot：

“none”是最有效的。如果存在期望的监视查询，则无法提供读取一致性。但对于大多数使用来说是可以的。
“cache ”能确保重复访问产生相同的值，对于涉及自联接的查询很重要。
“snapshot”在以交互方式检查统计信息时很有用，但开销更高。

stats_fetch_consistency的默认值为“cache ”。

更新迭代中的疑问与解答

面对PostgreSQL 15新版本中的重大调整，很多用户也会产生相关的疑惑。

统计信息位于共享内存中，如何在重新启动后保存？

统计信息在关机前，由检查点进程写出到文件系统，并在启动期间由启动进程再次装回。像往常一样，如果发生崩溃，统计信息将会失效。

新功能会影响监控工具/脚本吗？

显然是不会，所有的统计监测视图pg_stat_*仍能照常工作，但需要为stats_fetch_consistency选择适当的值。如上所述，保留pg_stat_tmp目录是为了不破坏使用这种方法开发的扩展。但是，扩展开发人员需要针对PostgreSQL 15彻底测试扩展。

如何使用PostgreSQL等待事件，了解PostgreSQL及其会话在哪里花费的时间呢？

日常生活中使用的数据收集和分析工具，例如pg_gather，利用这些等待事件分析和了解问题。因此，为了更好地监控，PostgreSQL还引入了三个新的等待事件。

PgSta tsDSA：等待统计动态共享内存分配器访问。
PgStatsHash：等待stats共享内存哈希表访问。
PgStatsData：等待共享内存统计数据访问。

总的来说，PostgreSQL 15不再需要统计信息收集器，而是将统计信息都存储在共享内存中。随着统计收集器及其维护的所有开销的消失，其他子系统，例如自动真空系统，工作量将大大减少，经常查询统计信息的监控工具将会大大降低系统的负载。

Tags：PostgreSQL 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

快速上手 PostgreSQL：掌握PSQL 命令行工具连接技巧

当涉及到使用 PostgreSQL 数据库时，psql 是一个强大且常用的命令行工具。它提供了与 PostgreSQL 数据库进行交互的功能，允许你执行 SQL 查询、管理数据库对象、导入和导出数据...【详细内容】

2023-12-14　　Search: PostgreSQL 点击:(153)　　评论:(0)　　加入收藏

为何在中国 MySQL 远比 PostgreSQL 流行？

首先在全球范围内，MySQL 一直是领先于 PostgreSQL (下文简称 PG) 的。下图是 DB-Engines 的趋势图，虽然 PG 是近 10 年增长最快的数据库，但 MySQL 依然保持着优势。再来看一下...【详细内容】

2023-12-11　　Search: PostgreSQL 点击:(196)　　评论:(0)　　加入收藏

数据库迁移：从 SQL Server 到 PostgreSQL

作者 | 何蔚一、背景在这个数字化时代，企业的复杂业务逻辑运转需要依赖复杂的业务服务来完成。这些业务服务通常会经历变更、拆分、合并和上云等过程，最终与一些商业软件和云...【详细内容】

2023-11-29　　Search: PostgreSQL 点击:(237)　　评论:(0)　　加入收藏

PostgreSQL到底好不好？为什么互联网公司不敢用呢？

之前呢！笔者在某平台上看了关于PostgreSQL相关的内容，并且看到下面评论中问到关于PostgreSQL这个数据库到底好不好用。那么下面我们就来聊聊关于PostgreSQL相关的内容，并且相...【详细内容】

2023-11-09　　Search: PostgreSQL 点击:(280)　　评论:(0)　　加入收藏

今天测试一下 1 亿条数据，MySQL 和 PostgreSQL 的性能表现

今天测试一下 1 亿条数据，MySQL 和 PostgreSQL 的性能表现。说明下，只是做一些基本的测试，并没有用一些数据库 Benchmark 工具进行测试。准备建表语句：CREATE TABLE user_mysql...【详细内容】

2023-09-28　　Search: PostgreSQL 点击:(354)　　评论:(0)　　加入收藏

十分钟掌握Doris，超越Hive、Elasticsearch和PostgreSQL

以前，数据仓库通常由Apache Hive、MySQL、Elasticsearch和PostgreSQL组成。它们支持数据仓库的数据计算和数据存储层：数据计算：Apache Hive作为计算引擎。数据存储：MySQL为Dat...【详细内容】

2023-09-27　　Search: PostgreSQL 点击:(225)　　评论:(0)　　加入收藏

centos7 下安装PostgreSQL 及timescaledb 的过程

前期准备先删除现有的PostgreSQL 比如13使用 sudo yum remove postgresql13-server postgresql13-contrib 该命令将会删除安装包及其依赖项。卸载完成后，为了确保 PostgreSQ...【详细内容】

2023-09-26　　Search: PostgreSQL 点击:(453)　　评论:(0)　　加入收藏

PostgreSQL vs MySQL - 1000万数据批量插入，谁能略胜一筹

之前测试MySQL批量插入，发现慢的离谱，找了下原因，竟然是少了个参数，rewriteBatchedStatements=true。昨天《PostgreSQL vs MySQL - 30倍性能差异》这个原因也找到了，汗颜。rewri...【详细内容】

2023-09-25　　Search: PostgreSQL 点击:(343)　　评论:(0)　　加入收藏

为什么越来越多的人选择PostgreSQL，放弃了MySQL

2023年Stack Overflow 调查显示，Postgres 已经取代 MySQL 成为第一名，成为最受欢迎的数据库。虽然这是国外统计，在中国应该还是MySQL更有广泛度，但足以说明问题，PostgreSQL的市场...【详细内容】

2023-09-15　　Search: PostgreSQL 点击:(301)　　评论:(0)　　加入收藏

如何迁移一个 3TB 的 PostgreSQL 数据库数据

【CSDN 编者按】这篇文章分享了作者作为一位全栈开发者，在三周内将一个 3TB 的 PostgreSQL 数据库从 AWS 迁移到 Azure DevOps 的过程和经验，以及遇到的挑战和解决方案。原文...【详细内容】

2023-09-04　　Search: PostgreSQL 点击:(284)　　评论:(0)　　加入收藏

▌简易百科推荐

向量数据库落地实践

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】

2024-04-03　　京东云开发者　　　　Tags:向量数据库　点击:(5)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

介绍在某些情况下，SQL 函数（即指定LANGUAGE SQL）会将其函数体内联到调用它的查询中，而不是直接调用。这可以带来显著的性能提升，因为函数体可以暴露给调用查询的规划器，从而规划器...【详细内容】

2024-04-03　　红石PG　　微信公众号　　Tags:SQL 函数　点击:(5)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出，业界对于NoSQL数据库的需求正在持续上升。2022年，全球NoSQL市场的销售额已达73亿美元，预计到2032年将达...【详细内容】

2024-03-28　　　　51CTO　　Tags:NoSQL 　点击:(14)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时，还是经常性采用c3p0，tomcat connection pool等技术来与DB连接，哪怕整个程序已经变成以...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:数据库连接池　点击:(14)　　评论:(0)　　加入收藏

八个常见的数据可视化错误以及如何避免它们

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】

2024-03-26　　DeepHub IMBA　　微信公众号　　Tags:数据可视化　点击:(7)　　评论:(0)　　加入收藏

到底有没有必要分库分表，如何考量的

关于是否需要进行分库分表，可以根据以下考量因素来决定：数据量和负载：如果数据量巨大且负载压力较大，单一库单一表可能无法满足性能需求，考虑分库分表。数据增长：预估数据增长...【详细内容】

2024-03-20　　码上遇见你　　微信公众号　　Tags:分库分表　点击:(15)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

WHY？IN 和 NOT IN 是比较常用的关键字，为什么要尽量避免呢？1、效率低项目中遇到这么个情况：t1表和 t2表都是150w条数据，600M的样子，都不算大。但是这样一句查询 ↓select *...【详细内容】

2024-03-18　　dbaplus社群　　　　Tags:SQL 　点击:(6)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

大促备战，最大的隐患项之一就是慢SQL，对于服务平稳运行带来的破坏性最大，也是日常工作中经常带来整个应用抖动的最大隐患，在日常开发中如何避免出现慢SQL，出现了慢SQL应该按照什...【详细内容】

2024-03-14　　京东云开发者　　　　Tags:慢SQL 　点击:(5)　　评论:(0)　　加入收藏

过去一年，我看到了数据库领域的十大发展趋势

作者 | 朱洁策划 | 李冬梅过去一年，行业信心跌至冰点2022 年中，红衫的一篇《适应与忍耐》的报告，对公司经营提出了预警，让各个公司保持现金流，重整团队，想办法增加盈利。这篇报告...【详细内容】

2024-03-12　　　　InfoQ　　Tags:数据库　点击:(32)　　评论:(0)　　加入收藏

SQL优化的七个方法，你会哪个？

一、插入数据优化普通插入：在平时我们执行insert语句的时候，可能都是一条一条数据插入进去的，就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】

2024-03-07　　程序员恰恰　　微信公众号　　Tags:SQL优化　点击:(20)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对