OLAP引擎：基于Druid组件进行数据统计分析

时间：2021-04-06 11:13:52 来源：今日头条作者：知了一笑

一、Druid概述

1、Druid简介

Druid是一款基于分布式架构的OLAP引擎，支持数据写入、低延时、高性能的数据分析，具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景，是大数据基础架构建设中重要组件。

与现在相对热门的Clickhouse引擎相比，Druid对高并发的支持相对较好和稳定，但是Clickhouse在任务队列模式中的数据查询能力十分出色，但是对高并发支持不够友好，需要做好很多服务监控和预警。大数据组件中OLAP引擎的选型有很多，在数据的查询引擎层通常都具有两种或者以上的OLAP引擎，选择合适的组件解决业务需求是优先原则。

2、基本特点

分布式

分布式的OLAP数据引擎，数据分布在多个服务节点中，当数据量激烈增长的时候，可以通过增加节点的方式进行水平扩容，数据在多个节点相互备份，如果单个节点出现故障，则可基于Zookeeper调度机制重新构建数据，这是分布式OLAP引擎的基本特点，在之前Clickhouse系列中也说过这个策略。

聚合查询

主要针对时间序列数据提供低延时数据写入和快速聚合查询，时序数据库特点写入即可查询，Druid在数据写入时就会对数据预聚合，进而减少原始数据量，节省存储空间并提升查询效率;数据聚合粒度可以基于特定策略，例如分钟、小时、天等。必须要强调Druid适合数据分析场景，并不适合单条数据主键查询的业务。

列式存储

Druid面向列的存储方式，并且可以在集群中进行大规模的并行查询，这意味在只需要加载特定查询所需要的列情况下，查询速度可以大幅度提升。

3、基础架构

统治者节点

即Overlord-Node，任务的管理节点，进程监视MiddleManager进程，并且是数据摄入Druid的控制器，负责将提取任务分配给MiddleManagers并协调Segement发布。

协调节点

即Coordinator-Node，主要负责数据的管理和在历史节点上的分布，协调节点告诉历史节点加载新数据、卸载过期数据、复制数据、和为了负载均衡移动数据。

中间管理节点

即MiddleManager-Node，摄入实时数据，已生成Segment数据文件，可以理解为overlord节点的工作节点。

历史节点

即Historical-Node，主要负责历史数据存储和查询，接收协调节点数据加载与删除指令，historical节点是整个集群查询性能的核心所在，因为historical会承担绝大部分的segment查询。

查询节点

即Broker-Node，扮演着历史节点和实时节点的查询路由的角色，接收客户端查询请求，并将这些查询转发给Historicals和MiddleManagers，当Brokers从这些子查询中收到结果时，它们会合并这些结果并将它们返回给调用者。

数据文件存储库

即DeepStorage，存放生成的Segment数据文件。

元数据库

即MetadataStorage，存储Druid集群的元数据信息，比如Segment的相关信息。

协调中间件

即Zookeeper，为Druid集群提供协调服务，如内部服务的监控，协调和领导者选举。

二、Druid部署

1、安装包

imply对druid做了集成，并提供从部署到配置到各种可视化工具的完整的解决方案。

https://static.imply.io/release/imply-2.7.10.tar.gz

解压并重新命名。

[root@hop01 opt]# tar -zxvf imply-2.7.10.tar.gz
[root@hop01 opt]# mv imply-2.7.10 imply2.7

2、Zookeeper配置

配置Zookeeper集群各个节点，逗号分隔。

[root@hop01 _common]# cd /opt/imply2.7/conf/druid/_common
[root@hop01 _common]# vim common.runtime.properties 
druid.zk.service.host=hop01:2181,hop02:2181,hop03:2181

关闭Zookeeper内置校验并且不启动。

[root@hop01 supervise]# cd /opt/imply2.7/conf/supervise
[root@hop01 supervise]# vim quickstart.conf

注释掉如下内容：

3、服务启动

依次启动相关组件：Zookeeper、Hadoop相关组件，然后启动imply服务。

[root@hop01 imply2.7]# /opt/imply2.7/bin/supervise -c /opt/imply2.7/conf/supervise/quickstart.conf

注意虚拟机内存问题，在如下的目录中Druid各个组件的JVM配置，条件不允许的话适当拉低，并且要拉高JVM相关内存参数。

[root@hop01 druid]# cd /opt/imply2.7/conf/druid

启动默认端口：9095，访问界面如下：

三、基础用法

1、数据源配置

选择上述Http的方式，基于imply提供的JSON测试文件。

https://static.imply.io/data/wikipedia.json.gz

2、数据在线加载

执行上述：Sample and continue。

样本数据加载配置：

数据列的配置：

配置项总体概览：

最后执行数据加载任务即可。

3、本地样本加载

[root@hop01 imply2.7]# bin/post-index-task --file quickstart/wikipedia-index.json

这样读取两份数据脚本。

4、数据立方体

数据加载完成后，查看可视化数据立方体：

数据立方体中提供一些基础的视图分析，可以在多个维度上拆分数据集并进行数据分析：

5、SQL查询

可以基于可视化工具对Druid进行SQL查询，语法与常用规则几乎一样：

SELECT COUNT(*) AS Edits FROM wikipedia;
SELECT * FROM wikipedia WHERE "__time" BETWEEN TIMESTAMP '开始' AND TIMESTAMP '结束';
SELECT page, COUNT(*) AS Edits FROM wikipedia GROUP BY page LIMIT 2;
SELECT * FROM wikipedia ORDER BY __time DESC LIMIT 5;
SELECT * FROM wikipedia LIMIT 3;

6、Segment文件

文件位置：

/opt/imply2.7/var/druid/segments/wikipedia/

Druid基于Segment实现对数据的切割，数据按时间的时序分布，将不同时间范围内的数据存储在不同的Segment数据块中，按时间范围查询数据时，可以避免全数据扫描效率可以极大的提高，同时面向列进行数据压缩存储，提高分析的效率。

Tags：Druid 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

数据库连接池为什么首选Druid

Druid是阿里巴巴的一个开源项目，号称为监控而生的数据库连接池，在功能、性能、扩展性方面都超过其他，例如 DBCP、C3P0、BoneCP、Proxool、JBoss、DataSource 等连接池，而且Druid已经在阿里巴巴部署了超过600个应用，通过了...【详细内容】

2021-06-17　　Tags: Druid 点击:(117)　　评论:(0)　　加入收藏

OLAP引擎：基于Druid组件进行数据统计分析

一、Druid概述1、Druid简介Druid是一款基于分布式架构的OLAP引擎，支持数据写入、低延时、高性能的数据分析，具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、...【详细内容】

2021-04-06　　Tags: Druid 点击:(180)　　评论:(0)　　加入收藏

Apache Druid 高性能的实时分析型数据库

目前广为人知的Druid有两个，一个是阿里巴巴开源的Durid数据库连接池，一个是MetaMarkets开源的分布式、实时多维OLAP分析的数据处理系统。这篇文章将介绍后者，即Apache Druid。...【详细内容】

2021-01-12　　Tags: Druid 点击:(278)　　评论:(0)　　加入收藏

基于 Apache Druid 的实时分析平台在爱奇艺的实践

最近几年大数据技术在各行各业得到广泛应用，为企业的运营决策和各种业务提供支持。随着数据的增长，业务对数据时效性的要求，给企业的大数据分析带来了巨大挑战。针对海量数据的...【详细内容】

2020-06-11　　Tags: Druid 点击:(40)　　评论:(0)　　加入收藏

是什么使Apache Druid非常适合实时分析？

> Photo by Carlos Muza on Unsplash Apache druid是最流行的在线分析处理（OLAP）开源解决方案之一。 Airbnb和Netflix等许多科技公司都使用它来对每分钟包含数百万个事件的数...【详细内容】

2020-04-17　　Tags: Druid 点击:(77)　　评论:(0)　　加入收藏

详解三大数据库连接池c3p0，dbcp与druid的区别与联系

概述说到druid，这个还是以前在开源中国项目中看到的，说是比较好的数据连接池。今天就分享下常见的三大连接池--c3p0，dbcp与druid。功能1、DBCPDBCP是一个依赖Jakarta commons-p...【详细内容】

2019-09-03　　Tags: Druid 点击:(202)　　评论:(0)　　加入收藏

▌简易百科推荐

SQL常用增删改查语句

1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例：insert into Strdents (姓名,性别,出生日期) values ('开心朋朋','男','1980/6/15&#3...【详细内容】

2021-12-27　　快乐火车9d3　　　　Tags:SQL 　点击:(1)　　评论:(0)　　加入收藏

以一个简单的查询存储过程为例，简单说一下sql的几种写法

最近发现还有不少做开发的小伙伴，在写存储过程的时候，在参考已有的不同的写法时，往往很迷茫，不知道各种写法孰优孰劣，该选用哪种写法，以及各种写法的优缺点，本文以一个简单的查询...【详细内容】

2021-12-23　　linux上的码农　　　　Tags:sql 　点击:(9)　　评论:(0)　　加入收藏

HasorDB 一个全功能数据库访问工具

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具，提供对象映射、丰...【详细内容】

2021-12-22　　GitHub精选　　　　Tags:HasorDB 　点击:(5)　　评论:(0)　　加入收藏

一文详解Liquibase如何自动化数据库脚本部署

作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】

2021-12-22　　　　51CTO　　Tags:Liquibase 　点击:(3)　　评论:(0)　　加入收藏

SQL 中 on 和 where 条件放置的差异

场景描述：由于生产环境的表比较复杂，字段很多。这里我们做下简化，只为说明今天要聊的问题。有两张表 tab1，tab2： tab1 数据如下： tab2 数据如下：然后给你看下，我用来统计 name=&#3...【详细内容】

2021-12-20　　Bald　　　　Tags:SQL 　点击:(5)　　评论:(0)　　加入收藏

一文掌握SQL基础

前言知识无底，学海无涯，知识点虽然简单，但是比较多，所以将MySQL的基础写出来，方便自己以后查找，还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】

2021-12-16　　谣言止于独立思考　　　　Tags:SQL基础　点击:(13)　　评论:(0)　　加入收藏

做测试不会 SQL？超详细的 SQL 查询语法教程来啦

前言作为一名测试工程师，工作中在对测试结果进行数据比对的时候，或多或少要和数据库打交道的，要和数据库打交道，那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】

2021-12-14　　柠檬班软件测试　　　　Tags:SQL 　点击:(15)　　评论:(0)　　加入收藏

C｜数据存储地址与字节偏移、数据索引

话说C是面向内存的编程语言。数据要能存得进去，取得出来，且要考虑效率。不管是顺序存储还是链式存储，其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】

2021-12-08　　小智雅汇　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

数据库迁移有什么技巧？|分享强大的database迁移和同步工具

概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件，可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】

2021-11-17　　雪竹聊运维　　　　Tags:数据库　点击:(26)　　评论:(0)　　加入收藏

谈谈执行一条SQL的流程

一、前言大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】

2021-11-09　　woaker　　　　Tags:SQL 　点击:(35)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为