您当前的位置：首页 > 电脑百科 > 数据库 > 百科

聊聊SQL中的分组集

时间：2023-07-28 20:46:58 来源：分组集的定义是多个分组的并集，用于在一个查询中，按照不同的分组列对集合进行聚合运算，等价于对单个分组使用\"UNION 作者：

+ 加入收藏

分组集的定义

是多个分组的并集，用于在一个查询中，按照不同的分组列对集合进行聚合运算，等价于对单个分组使用"UNION ALL"，计算多个结果集的并集。

分组集种类

SQL Server的分组集共有三种 GROUPING SETS, CUBE, 以及ROLLUP，其中 CUBE和ROLLUP可以当做是GROUPING SETS的简写版

GROUPING SETS

GROUPING SETS子句允许你指定多个GROUP BY选项。增强了GROUP BY的功能。

可以通过一条SELECT语句实现复杂繁琐的多条SELECT语句的查询。并且更加的

高效，解析存储一条SQL于语句

GROUP SETS示例

我们以Customers表为例，其内容如下：

图片

我们先分别对城市和省份进行分组，统计出他们的数量

SELECT 城市,NULL 省份,COUNT(城市) FROM Customers
GROUP BY 城市
UNION ALL
SELECT NULL,省份,COUNT(省份) FROM Customers
GROUP BY 省份

结果为：

图片

再使用GROUPING SETS来统计

SELECT 
城市,
省份,
COUNT(客户ID) 数量
FROM Customers
GROUP BY GROUPING SETS (城市,省份)

结果如下

图片

其实上下两个结果是一样的，只是UNION ALL不排序，而GROUPING SETS增加了排序。这样不仅减少了代码，而且这样的效率会比UNION ALL的效率高。通常GROUPING SETS使用在组合分析中。

ROLLUP

ROLLUP也是GROUPING SETS的一种简略写法，我们举例说明。

我们先使用GROUPING SETS的多层组合

SELECT 
省份,
城市,
COUNT(1) 数量
FROM Customers
GROUP BY GROUPING SETS (
省份,(省份,城市)
)

其结果为：

图片

我们使用ROLLUP可以这样写

SELECT 
省份,
城市,
COUNT(客户ID) 数量
FROM Customers
GROUP BY 省份,城市 WITH ROLLUP

其结果为：

图片

我们来解读一下ROLLUP的作用，其作用是对每个列先进行一次分组，并且对第一列的数据在每个组内还进行一次汇总，最后对所有的数据再进行一次汇总，所以相比GROUPING SETS会多了个所以数据的汇总。这个在对组内进行聚合时是经常使用到的。

CUBE

而CUBE相比ROLLUP就更多一个维度了，我们还是距离说明。

SELECT 
省份,
城市,
COUNT(客户ID) 数量
FROM Customers
GROUP BY 省份,城市 WITH CUBE

结果如下：

图片

在ROLLUP的基础上，还会将第一列每组的汇总数据额外显示在最后。

总结

分组集类似于Excel的透视图，可以对各类数据进行组内计算，这里不止可以进行数量统计，也可以进行求和，最大最小值等操作。是我们在进行数据分析时候经常使用到的一组功能。

Tags：SQL 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

MySQL 核心模块揭秘

server 层会创建一个 SAVEPOINT 对象，用于存放 savepoint 信息。binlog 会把 binlog offset 写入 server 层为它分配的一块 8 字节的内存里。 InnoDB 会维护自己的 savepoint...【详细内容】

2024-04-03　　Search: SQL 点击:(5)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

介绍在某些情况下，SQL 函数（即指定LANGUAGE SQL）会将其函数体内联到调用它的查询中，而不是直接调用。这可以带来显著的性能提升，因为函数体可以暴露给调用查询的规划器，从而规划器...【详细内容】

2024-04-03　　Search: SQL 点击:(3)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出，业界对于NoSQL数据库的需求正在持续上升。2022年，全球NoSQL市场的销售额已达73亿美元，预计到2032年将达...【详细内容】

2024-03-28　　Search: SQL 点击:(13)　　评论:(0)　　加入收藏

MySQL 核心模块揭秘，你看明白了吗？

为了提升分配 undo 段的效率，事务提交过程中，InnoDB 会缓存一些 undo 段。只要同时满足两个条件，insert undo 段或 update undo 段就能被缓存。1. 关于缓存 undo 段为了提升分...【详细内容】

2024-03-27　　Search: SQL 点击:(10)　　评论:(0)　　加入收藏

MySQL：BUG导致DDL语句无谓的索引重建

对于5.7.23之前的版本在评估类似DDL操作的时候需要谨慎，可能评估为瞬间操作，但是实际上线的时候跑了很久，这个就容易导致超过维护窗口，甚至更大的故障。一、问题模拟使用5.7.22...【详细内容】

2024-03-26　　Search: SQL 点击:(9)　　评论:(0)　　加入收藏

从 MySQL 到 ByteHouse，抖音精准推荐存储架构重构解读

ByteHouse是一款OLAP引擎，具备查询效率高的特点，在硬件需求上相对较低，且具有良好的水平扩展性，如果数据量进一步增长，可以通过增加服务器数量来提升处理能力。本文将从兴趣圈层...【详细内容】

2024-03-22　　Search: SQL 点击:(23)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

WHY？IN 和 NOT IN 是比较常用的关键字，为什么要尽量避免呢？1、效率低项目中遇到这么个情况：t1表和 t2表都是150w条数据，600M的样子，都不算大。但是这样一句查询 ↓select *...【详细内容】

2024-03-18　　Search: SQL 点击:(5)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

大促备战，最大的隐患项之一就是慢SQL，对于服务平稳运行带来的破坏性最大，也是日常工作中经常带来整个应用抖动的最大隐患，在日常开发中如何避免出现慢SQL，出现了慢SQL应该按照什...【详细内容】

2024-03-14　　Search: SQL 点击:(4)　　评论:(0)　　加入收藏

MySQL自增主键一定是连续的吗？

测试环境：MySQL版本：8.0数据库表：T （主键id，唯一索引c，普通字段d）如果你的业务设计依赖于自增主键的连续性，这个设计假设自增主键是连续的。但实际上，这样的假设是错的，因为自增主键不...【详细内容】

2024-03-10　　Search: SQL 点击:(5)　　评论:(0)　　加入收藏

准线上事故之MySQL优化器索引选错

1 背景最近组里来了许多新的小伙伴，大家在一起聊聊技术，有小兄弟提到了MySQL的优化器的内部策略，想起了之前在公司出现的一个线上问题，今天借着这个机会，在这里分享下过程和结论...【详细内容】

2024-03-07　　Search: SQL 点击:(27)　　评论:(0)　　加入收藏

▌简易百科推荐

向量数据库落地实践

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】

2024-04-03　　京东云开发者　　　　Tags:向量数据库　点击:(4)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

2024-04-03　　红石PG　　微信公众号　　Tags:SQL 函数　点击:(3)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

2024-03-28　　　　51CTO　　Tags:NoSQL 　点击:(13)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时，还是经常性采用c3p0，tomcat connection pool等技术来与DB连接，哪怕整个程序已经变成以...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:数据库连接池　点击:(12)　　评论:(0)　　加入收藏

八个常见的数据可视化错误以及如何避免它们

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】

2024-03-26　　DeepHub IMBA　　微信公众号　　Tags:数据可视化　点击:(6)　　评论:(0)　　加入收藏

到底有没有必要分库分表，如何考量的

关于是否需要进行分库分表，可以根据以下考量因素来决定：数据量和负载：如果数据量巨大且负载压力较大，单一库单一表可能无法满足性能需求，考虑分库分表。数据增长：预估数据增长...【详细内容】

2024-03-20　　码上遇见你　　微信公众号　　Tags:分库分表　点击:(13)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

2024-03-18　　dbaplus社群　　　　Tags:SQL 　点击:(5)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

2024-03-14　　京东云开发者　　　　Tags:慢SQL 　点击:(4)　　评论:(0)　　加入收藏

过去一年，我看到了数据库领域的十大发展趋势

作者 | 朱洁策划 | 李冬梅过去一年，行业信心跌至冰点2022 年中，红衫的一篇《适应与忍耐》的报告，对公司经营提出了预警，让各个公司保持现金流，重整团队，想办法增加盈利。这篇报告...【详细内容】

2024-03-12　　　　InfoQ　　Tags:数据库　点击:(26)　　评论:(0)　　加入收藏

SQL优化的七个方法，你会哪个？

一、插入数据优化普通插入：在平时我们执行insert语句的时候，可能都是一条一条数据插入进去的，就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】

2024-03-07　　程序员恰恰　　微信公众号　　Tags:SQL优化　点击:(19)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个

站内最新

栏目相关

· 向量数据库落地实践

· 原来 SQL 函数是可以内联的！

· 如何正确选择NoSQL数据库

· 为什么数据库连接池不采用 IO 多路复用？

· 八个常见的数据可视化错误以及如何避免它们

· 到底有没有必要分库分表，如何考量的

· 在 SQL 中写了 in 和 not in，技术总监说要炒了我……

· 应对慢SQL的致胜法宝：7大实例剖析+优化原则

· 过去一年，我看到了数据库领域的十大发展趋势

· SQL优化的七个方法，你会哪个？

· 让数据库和缓存数据保持一致的三种策略

· 为什么高性能场景选用Postgres SQL 而不是 MySQL

· 一篇文章，彻底理解数据库操作语言：DDL、DML、DCL、TCL

· 如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道

· 一文读懂：什么是数据库，它到底有啥用？

· 纯向量数据库和向量插件都有局限，那未来发展有其他方向吗？

站内热门