您当前的位置:首页 > 电脑百科 > 数据库 > 百科

PostgreSQL 15 中值得关注的“大更新”

时间:2022-09-09 09:23:17  来源:CSDN  作者:

摘要:以前,统计信息收集器通过UDP接收统计信息更新,并通过定期将统计信息数据写出到临时文件来共享统计信息数据。当文件达到数十兆字节时,每秒最多写出两次,这会阻止添加其他有用的统计数据。现在,PostgreSQL 15将做出了重大的改变,开始使用动态共享内存来收集统计信息,而不再使用文件和文件系统。

https://www.percona.com/blog/postgresql-15-stats-collector-gone-whats-new/

声明:本文为CSDN翻译,转载请注明来源。

作者 | Jobin Augustine

译者 | 朱珂欣 责编 | 屠敏

出品 | CSDN(ID:CSDNnews)

众所周知,PostgreSQL是一个功能强大的开源对象关系数据库系统,它使用并扩展了SQL语言,并结合了许多可安全存储和扩展最复杂数据工作负载的特性。一直以来,PostgreSQL都在业内拥有极高的声誉,它的每一次版本的发布,都能在国内外获得很大的关注度。

2022年6月30日,PostgreSQL全球开发组宣布PostgreSQL 15的第二个beta版本已可供下载,该版本包含将于2022年末发布的PostgreSQL 15正式版本中的所有特性和功能。

很多人将PostgreSQL 15与PostgreSQL 14相比较,就会发现有一个特别的更新——"统计信息收集器"不见了。曾经是无数开发者的开发瓶颈,如今已经永远消失了。作为PostgreSQL 14和更早版本都需要“统计信息收集器”,它存在怎样的问题呢?PostgreSQL 15又新增了什么样的功能?

被舍弃的统计信息收集器

PostgreSQL的统计信息收集器,是一个支持收集和报告服务器活动信息的子系统。它可以对表和索引的访问计数,以此累计统计信息。并且,还可以跟踪每个表中的总行数、每个表的清理和分析动作的信息,以及统计调用用户定义函数的次数和在每次调用中花费的总时间。

但是,PostgreSQL的统计信息收集器同样存在一些问题。

 

  •  

    信息传输受到阻力。

     

 

由于会话的每个后端是PostgreSQL中的单独进程,因此,收集统计信息并传输并不是容易的事。每个后端将有关它们执行的活动信息发送到单个“统计信息收集器”进程。在过去,这种通信是通过UDP套接字进行,在用户报告的不同类型问题中显示,有三类问题较为明显:统计数据过期;统计数据收集器不运行;自动真空不工作/不启动等。

并且,在过去如果统计数据收集器在特定机器上出现问题,用户其实很难理解出了什么问题。

 

  •  

    大量IO出现。

     

 

“统计信息收集器”还有一个不利影响——它引起的IO。如果启用DEBUG级别 2,可能会看到不断出现在PostgreSQL 日志中的消息,将导致数据目录所在的装入点上出现大量 IO。

下图是参数值stats_temp_directory所指向的位置。在许多系统上,它将是数据目录中pg_stat_tmp。在Ubuntu/Debian上,它将在/var/run/postgresql中,例如:

PostgreSQL 15中的新动作

面对统计信息收集器带来的弊端,如今,PostgreSQL 15开始使用动态共享内存来收集统计信息,而不再使用文件和文件系统。

正如Andres Freund在文中提及的:

 

以前,统计信息收集器通过UDP接收统计信息更新,并通过定期将统计信息数据写出到临时文件来共享统计信息数据。这些文件可以达到数十兆字节,并且每秒最多写出两次。这会阻止我们添加其他有用的统计数据。 现在,统计信息都存储在共享内存中。可以变化的编号对象的统计信息,存储在由动态共享内存支持的 dshash 哈希表中。固定编号的统计信息,存储在普通共享内存中。pgstat.c 的标题包含体系结构的概述。 不再需要统计信息收集器,请将其删除。

 

显然,参数stats_temp_directory已经消失。因此,不再需要pg_stat_tmp目录了,pg_stat_tmp目录是在数据目录或其他位置中创建的,所有统计文件都在此生成和读取。然而,仍保留它是因为不会破坏许多依赖于该目录的扩展,例如pg_stat_statements。

在加载扩展库之前,目录保持为空。例如,如果我们加载pg_stat_statements库,目录中会出现一个文件。

当然,这些扩展都并非免费的,需要成本。

在新架构中,大多数统计更新时,首先需要在每个进程中本地累积为"pending"(每个后端都有一个后端本地哈希表)。"pending"是指已累积但尚未提交到共享统计系统的待定信息。在提交后或超时后,会被刷入共享内存。

由于统计信息是在有人试图读取时被并发更新的,所以读取一致性就成了问题。为了解决读取一致性的问题=PostgreSQL 15引入了一个新的参数:stats_fetch_consistency。它可以取三个值,none、cache 、snapshot:

 

  •  

    “none”是最有效的。如果存在期望的监视查询,则无法提供读取一致性。但对于大多数使用来说是可以的。

     

  •  

    “cache ”能确保重复访问产生相同的值,对于涉及自联接的查询很重要。

     

  •  

     

    “snapshot”在以交互方式检查统计信息时很有用,但开销更高。

     

 

stats_fetch_consistency的默认值为“cache ”。

更新迭代中的疑问与解答

面对PostgreSQL 15新版本中的重大调整,很多用户也会产生相关的疑惑。

 

  •  

    统计信息位于共享内存中,如何在重新启动后保存?

     

 

统计信息在关机前,由检查点进程写出到文件系统,并在启动期间由启动进程再次装回。像往常一样,如果发生崩溃,统计信息将会失效。

 

  •  

    新功能会影响监控工具/脚本吗?

     

 

显然是不会,所有的统计监测视图pg_stat_*仍能照常工作,但需要为stats_fetch_consistency选择适当的值。如上所述,保留pg_stat_tmp目录是为了不破坏使用这种方法开发的扩展。但是,扩展开发人员需要针对PostgreSQL 15彻底测试扩展。

 

  •  

    如何使用PostgreSQL等待事件,了解PostgreSQL及其会话在哪里花费的时间呢?

     

 

日常生活中使用的数据收集和分析工具,例如pg_gather,利用这些等待事件分析和了解问题。 因此,为了更好地监控,PostgreSQL还引入了三个新的等待事件。

 

  •  

    PgSta tsDSA: 等待统计动态共享内存分配器访问。

     

  •  

    PgStatsHash: 等待stats共享内存哈希表访问。

     

  •  

    PgStatsData: 等待共享内存统计数据访问。

     

 

总的来说,PostgreSQL 15不再需要统计信息收集器,而是将统计信息都存储在共享内存中。随着统计收集器及其维护的所有开销的消失,其他子系统,例如自动真空系统,工作量将大大减少,经常查询统计信息的监控工具将会大大降低系统的负载。



Tags:PostgreSQL   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
快速上手 PostgreSQL:掌握PSQL 命令行工具连接技巧
当涉及到使用 PostgreSQL 数据库时,psql 是一个强大且常用的命令行工具。它提供了与 PostgreSQL 数据库进行交互的功能,允许你执行 SQL 查询、管理数据库对象、导入和导出数据...【详细内容】
2023-12-14  Search: PostgreSQL  点击:(153)  评论:(0)  加入收藏
为何在中国 MySQL 远比 PostgreSQL 流行?
首先在全球范围内,MySQL 一直是领先于 PostgreSQL (下文简称 PG) 的。下图是 DB-Engines 的趋势图,虽然 PG 是近 10 年增长最快的数据库,但 MySQL 依然保持着优势。再来看一下...【详细内容】
2023-12-11  Search: PostgreSQL  点击:(196)  评论:(0)  加入收藏
数据库迁移:从 SQL Server 到 PostgreSQL
作者 | 何蔚一、背景在这个数字化时代,企业的复杂业务逻辑运转需要依赖复杂的业务服务来完成。这些业务服务通常会经历变更、拆分、合并和上云等过程,最终与一些商业软件和云...【详细内容】
2023-11-29  Search: PostgreSQL  点击:(237)  评论:(0)  加入收藏
PostgreSQL到底好不好?为什么互联网公司不敢用呢?
之前呢!笔者在某平台上看了关于PostgreSQL相关的内容,并且看到下面评论中问到关于PostgreSQL这个数据库到底好不好用。那么下面我们就来聊聊关于PostgreSQL相关的内容,并且相...【详细内容】
2023-11-09  Search: PostgreSQL  点击:(280)  评论:(0)  加入收藏
今天测试一下 1 亿条数据,MySQL 和 PostgreSQL 的性能表现
今天测试一下 1 亿条数据,MySQL 和 PostgreSQL 的性能表现。说明下,只是做一些基本的测试,并没有用一些数据库 Benchmark 工具进行测试。准备建表语句:CREATE TABLE user_mysql...【详细内容】
2023-09-28  Search: PostgreSQL  点击:(354)  评论:(0)  加入收藏
十分钟掌握Doris,超越Hive、Elasticsearch和PostgreSQL
以前,数据仓库通常由Apache Hive、MySQL、Elasticsearch和PostgreSQL组成。它们支持数据仓库的数据计算和数据存储层: 数据计算:Apache Hive作为计算引擎。 数据存储:MySQL为Dat...【详细内容】
2023-09-27  Search: PostgreSQL  点击:(225)  评论:(0)  加入收藏
centos7 下安装PostgreSQL 及timescaledb 的过程
前期准备先删除现有的PostgreSQL 比如13使用 sudo yum remove postgresql13-server postgresql13-contrib 该命令将会删除安装包及其依赖项。卸载完成后,为了确保 PostgreSQ...【详细内容】
2023-09-26  Search: PostgreSQL  点击:(453)  评论:(0)  加入收藏
PostgreSQL vs MySQL - 1000万数据批量插入,谁能略胜一筹
之前测试MySQL批量插入,发现慢的离谱,找了下原因,竟然是少了个参数,rewriteBatchedStatements=true。昨天《PostgreSQL vs MySQL - 30倍性能差异》这个原因也找到了,汗颜。rewri...【详细内容】
2023-09-25  Search: PostgreSQL  点击:(343)  评论:(0)  加入收藏
为什么越来越多的人选择PostgreSQL,放弃了MySQL
2023年Stack Overflow 调查显示,Postgres 已经取代 MySQL 成为第一名,成为最受欢迎的数据库。虽然这是国外统计,在中国应该还是MySQL更有广泛度,但足以说明问题,PostgreSQL的市场...【详细内容】
2023-09-15  Search: PostgreSQL  点击:(301)  评论:(0)  加入收藏
如何迁移一个 3TB 的 PostgreSQL 数据库数据
【CSDN 编者按】这篇文章分享了作者作为一位全栈开发者,在三周内将一个 3TB 的 PostgreSQL 数据库从 AWS 迁移到 Azure DevOps 的过程和经验,以及遇到的挑战和解决方案。原文...【详细内容】
2023-09-04  Search: PostgreSQL  点击:(284)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(5)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(5)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(14)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(14)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(7)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(15)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 ↓select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(6)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(5)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(32)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(20)  评论:(0)  加入收藏
站内最新
站内热门
站内头条