您当前的位置:首页 > 电脑百科 > 数据库 > 百科

列式数据库ClickHouse,大宽表聚合、报表一下全搞定

时间:2023-10-08 17:05:00  来源:微信公众号  作者:小王博客基地

列式数据库ClickHouse,大宽表聚合、报表一下全搞定

一、前言

现在数据库的种类也是特别的多,大致的类别包括:

  • 关系型数据库( MySQL、Oracle、PostgreSQL)。
  • 非关系型数据库(redis、MongoDB、Cassandra、Neo4j)。
  • 全文搜索引擎和分布式文档存储系统(Elasticsearch )。
  • 列式数据库(ClickHouse)。

每种都在各自的领域表现出色,但当涉及到大规模数据分析和复杂查询时,ClickHouse 出现在了舞台上。

ClickHouse 使用列式存储,这意味着它可以高效地执行聚合、过滤和排序操作。

「面试经常问到大宽表查询聚合怎么办,这不是解决方案来了嘛!!」

今天我们就一起来深入了解一下ClickHouse !看的人多的话,下期出实战哈!

二、ClickHouse简介

ClickHouse是一款由俄罗斯搜索引擎公司 Yandex 开发的开源列式数据库管理系统(DBMS)。发布于2016年,是使用 C++ 编程语言开发的。它的设计目标是用于高性能的大规模数据分析和查询,类似SQL语法降低开发和学习成本。

「ClickHouse 是用于实时应用程序和分析的速度最快、资源效率最高的开源数据库。」

Github的start数量已经:30.6k」

官网地址:https://clickhouse.com/

列式数据库ClickHouse,大宽表聚合、报表一下全搞定

三、OLAP

简介

说起列式数据库,就不得不说OLAP,列式型数据库天然适合OLAP场景,下面我们一起了解一下什么是OLAP!

OLAP(联机分析处理)是一种强大的数据处理分析方法,特别适用于需要深入探索大量多维数据的应用场景,如业务智能、数据仓库、销售分析、财务报告等。OLAP 技术允许用户从不同的角度、维度和层次来查看和分析数据,以发现潜在的关联、趋势和模式,从而更好地做出决策。

场景特性

  • 表很“宽”,这意味着它们包含大量列。
  • 数据集很大,处理单个查询时查询需要高吞吐量(每台服务器每秒高达数十亿行)。
  • 列值相当小:数字和短字符串(例如,每个 URL 60 字节)。
  • 查询提取大量行,但只提取一小部分列。
  • 对于简单查询,允许 50 毫秒左右的延迟。
  • 每个查询有一张大表;除了一张大表外,所有表都很小。
  • 查询结果明显小于源数据。换句话说,数据经过过滤或聚合,因此结果适合单个服务器的 RAM。
  • 查询相对较少(通常每台服务器每秒数百个查询或更少)。
  • 插入发生在相当大的批次(> 1000 行)中,而不是单行。
  • 事务不是必须的。

为什么适合OLAP

面向列的数据库更适合 OLAP 场景:它们处理大多数查询的速度至少快 100 倍。下面详细解释了原因,但事实更容易直观地展示:

制作了一个动态图片能够直观的看到比行式数据库效率高很多!

列式数据库ClickHouse,大宽表聚合、报表一下全搞定

四、业务场景

我们单独讲业务场景的话有点单调,我们一般喜欢拿它和Elasticsearch 进行比较!

ClickHouse 和 Elasticsearch 都是用于数据存储和查询的强大工具,但它们在业务场景和使用方面有一些不同之处。

以下是 ClickHouse 和 Elasticsearch 的业务场景对比:

「ClickHouse:」

  • 数据仓库和大规模数据分析:ClickHouse 是一个出色的大规模数据分析工具,特别适用于存储和查询历史数据。它支持复杂的 SQL 查询,可以执行聚合、过滤、排序等操作,是构建数据仓库的理想选择。
  • 时序数据分析:ClickHouse 的列式存储结构和高性能使其非常适合处理时序数据,如传感器数据、监控数据、日志数据等。
  • 报表生成:如果你需要生成复杂的报表和分析结果,ClickHouse 可以提供高性能的数据检索和处理能力。
  • 数据压缩和存储优化:ClickHouse 使用快速压缩算法,可以大幅减小存储空间占用,降低硬件成本。
  • 复杂查询:ClickHouse 支持复杂的查询和聚合操作,适用于需要深入分析数据的场景。

「Elasticsearch:」

  • 全文搜索和文本分析:Elasticsearch 是一个出色的全文搜索引擎,专注于文本数据的高级搜索、分析和相关性排序。它通常用于构建搜索引擎、日志分析和全文搜索应用。
  • 实时数据分析:Elasticsearch 支持实时数据分析,可以实时监控、查询和可视化数据。它在监控、日志分析和实时数据仓库等场景中表现出色。
  • 数据探索:Elasticsearch 提供了灵活的数据探索能力,用户可以通过自由组合查询条件来探索数据。
  • 非结构化数据:Elasticsearch 适用于非结构化或半结构化数据,如日志、社交媒体数据、文档等。
  • 数据可视化:结合 Kibana 工具,Elasticsearch 可以用于创建交互式数据可视化仪表板。
  • 高并发查询:相对于ClickHouse 更适合高并发下的查询。

五、拓展

当然我们也有列式存储,字节在 ClickHouse 架构基础上进行了升级,于 2020 年在内部启动了 ByConity 项目,并于 2023 年 1 月发布 Beta 版本,5月底正式对外开源。

ByConity官网地址:https://byconity.github.io/zh-cn/。

ByConity 是字节跳动开源的云原生数据仓库,它采用计算-存储分离的架构,支持多个关键功能特性,如「计算存储分离、弹性扩缩容、租户资源隔离和数据读写的强一致性」等。

通过利用主流的 OLAP 引擎优化,如「列存储、向量化执行、MPP 执行、查询优化」等,ByConity 可以提供「优异的读写性能」。

列式数据库ClickHouse,大宽表聚合、报表一下全搞定

ByConity

字节也在内部准备从ClickHouse 全面切换为ByConity。

我们本次了解一下ClickHouse,后面再深入学习一下ByConity!

五、总结

综上所述,ClickHouse 更适用于大规模数据分析、数据仓库、复杂查询、大宽表聚合、报表等场景,而 Elasticsearch 更适用于全文搜索、实时数据分析、日志分析和数据探索等场景。

大家根据自己的业务具体使用那个即可!



Tags:ClickHouse   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
从Clickhouse迁移到Doris,数据仓库性能大提升
从一个OLAP数据库迁移到另一个数据库是一项艰巨的工程。即使能找到一些有用的数据工具,您可能仍会犹豫是否对数据架构进行大手术,因为不确定如何运作。本文分享如何从ClickHou...【详细内容】
2023-11-17  Search: ClickHouse  点击:(201)  评论:(0)  加入收藏
从使用的角度看 ByConity 和 ClickHouse 的差异
Github: https://github.com/ByConity自 ClickHouse Inc 宣布其重要新功能仅在 ClickHouse Cloud 上开放以来,一些关注 ByConity 开源的社区小伙伴也来询问 ByConity 后续开...【详细内容】
2023-10-26  Search: ClickHouse  点击:(245)  评论:(0)  加入收藏
列式数据库ClickHouse,大宽表聚合、报表一下全搞定
一、前言现在数据库的种类也是特别的多,大致的类别包括: 关系型数据库( MySQL、Oracle、PostgreSQL)。 非关系型数据库(Redis、MongoDB、Cassandra、Neo4j)。 全文搜索引擎和分布...【详细内容】
2023-10-08  Search: ClickHouse  点击:(333)  评论:(0)  加入收藏
基于CLICKHOUSE的数据仓库分层规范
数据仓库分层架构数据仓库我们一般分为接入层、明细层、实体层、主题层、应用层。各层存储的数据粒度不同。接入层:一般存储接收的原始数据,并给接入的数据打上接收时间戳。明...【详细内容】
2023-08-05  Search: ClickHouse  点击:(315)  评论:(0)  加入收藏
ClickHouse 技术研究及语法简介
本文对 Clickhouse 架构原理、语法、性能特点做一定研究,同时将其与 mysql、elasticsearch、tidb 做横向对比,并重点分析与 mysql 的语法差异,为有 mysql 迁移 clickhouse 场景...【详细内容】
2023-06-21  Search: ClickHouse  点击:(220)  评论:(0)  加入收藏
字节跳动开源ByConity:基于ClickHouse的存算分离架构云原生数仓
采访嘉宾 | 陈星、翟鹿渊作者 | 蔡芳芳、王一鹏热闹纷繁的 OLAP 赛道,又迎来一个开源新玩家。这几年 OLAP 赛道持续火热,国内外不少开源项目和商业公司活跃其中。在一众玩家中...【详细内容】
2023-05-22  Search: ClickHouse  点击:(296)  评论:(0)  加入收藏
揭秘字节跳动解决ClickHouse复杂查询问题的技术方案
导读:ClickHouse已经成为行业主流且热门的开源引擎。随着业务数据量扩大,场景覆盖变广泛,在复杂query场景下,ClickHouse容易存在查询异常问题,影响业务正常推进。本次主要分享字...【详细内容】
2022-09-05  Search: ClickHouse  点击:(416)  评论:(0)  加入收藏
记一次 ClickHouse 性能测试
前言在工作场景中,我们会采集工厂设备数据用于智能控制,数据的存储用了 InfluxDB,随着数据规模越来越大,InfluxDB 的性能越来越差,故考虑引入 ClickHouse 分担 InfluxDB 大数据分...【详细内容】
2022-08-15  Search: ClickHouse  点击:(358)  评论:(0)  加入收藏
使用IDEA连接ClickHouse OLAP数据库
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。来自于2011 年在纳斯达克上市的俄罗斯本土搜索引擎企业Yandex公司,诞生之初就是为了服务Yandex公司自家的W...【详细内容】
2022-01-18  Search: ClickHouse  点击:(2289)  评论:(0)  加入收藏
mybatis-plus整合clickhouse
公司使用mybatis-plus版本为3.0.7.1,mybatis-plus3.4.2对clickhouse是支持的,无奈怕升级影响大,只能在现有基础上调整mybatis-plus代码了。 mybatis 在项目中将mybatis-plus源...【详细内容】
2021-05-27  Search: ClickHouse  点击:(5080)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(4)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(3)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(13)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(12)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(6)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(13)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 ↓select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(5)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(4)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(26)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(19)  评论:(0)  加入收藏
站内最新
站内热门
站内头条