您当前的位置:首页 > 互联网百科 > 大数据

HashData数据仓库

时间:2020-08-03 16:33:22  来源:  作者:

自创立之日起,酷克数据一直致力于降低企业进行大数据分析的门槛,推动数据民主化。今天,我们朝这个目标迈出了第一步:酷克数据在青云QingCloud上推出基于PostgreSQL和Greenplum Database的SQL-on-Cloud解决方案--HashData数据仓库。利用HashData数据仓库,企业用户可以随时随地用标准的SQL客户端和BI工具对海量数据进行极速分析,轻松把握商业趋势,及时应对各种变化。

什么是HashData数据仓库

HashData数据仓库是一个高性能、完全托管的PB级数据仓库服务,让企业用户能够更轻松地分析海量数据。通过使用HashData,企业用户无需购买、配置和管理庞大的服务器集群,按使用量付费,没有任何前期投入,使得数据存储和分析的成本不到传统解决方案的十分之一。另外,HashData数据仓库兼容标准的JDBC和ODBC,无缝集成企业内部已有的ETL和BI工具。这意味着HashData数据仓库使用起来跟部署在企业内部数据中心的传统数据仓库一样自然方便。

HashData数据仓库的优势

完全托管,快速上手

通过使用HashData云服务,企业用户可以在几分钟内创建启动一个包含几个到几十个甚至上百个节点(根据业务需求)的数据仓库集群,数据加载后马上可以开始数据分析任务。随着业务负载的变化,用户还可以动态地对数据仓库集群进行纵向伸缩(scale up and down)和横向伸缩(scale in and out)。同时,由于是完全托管的云服务,HashData数据仓库承担了所有的集群资源配置、数据备份、持续监控、网络迁移、错误恢复、高可用和升级等纷繁复杂、极易出错的运维工作,让用户专注于业务分析上面。

为数据仓库而优化的架构

大规模并行处理(MPP)架构:基于企业级PostgreSQL数据库和MPP架构的分布式数据库Greenplum Database,HashData数据仓库通过将数据切片分布到各个计算节点后并行处理来解决海量数据分析的难题。每个HashData数据仓库集群由一个称为Master节点的主节点和多个称为Segment节点的计算节点组成。主节点和每个计算节点都有自己独立的CPU,内存和外部存储。主节点负责接收客户端的请求,生成查询计划,并将计划下发到每个计算节点,协调查询计划的完成,最后汇总查询结果返回给客户端。计算节点负责数据的存储以及查询计划的执行。计算节点之间是没有任何共享依赖的(shared nothing)。查询在每个计算节点上面并行执行,大大提升了查询的效率。

列式存储:HashData数据仓库提供了列式的存储策略。由于数据仓库中的大部分查询只涉及整表中的部分字段,相比于行式存储需要加载整表的数据,列式存储只需要加载某几列的数据,磁盘的IO及内存的消耗都显著减小。同时,HashData数据仓库还支持按列数据压缩。由于同列的数据类型相同、甚至有很多值也相同,按列的压缩比会非常高。这大大减少磁盘占用空间、读写IO和内存占用空间,并提高了查询的性能。

大表分区:MPP架构实现了对表数据的横向物理切分,而表分区则是对表数据的纵向逻辑切分,将一张顶层(父)大表根据约束条件分成一层或多层子表,每一层包含多张子表。HashData数据仓库支持基于数值范围(如日期或价格)、列表包含的数值(如销售地区或产品线)以及两者组合的分区策略。当查询优化器能够利用查询语句中的过滤条件(与分区表的约束条件进行匹配)避免大部分分区扫描的时候,查询性能将得到大幅的提升。

互联互通,拥抱开源

HashData数据仓库服务实现了多种途径将存放在青云QingCloud上面的数据加载到数据仓库中以供分析。对于传统的没有使用云的用户,只需要先将数据文件上传到青云QingCloud上面,同样可以使用HashData数据仓库来分析海量数据。

从QingStor对象存储中加载数据:传统的用户可以将数据文件上传到青云QingCloud的对象存储服务QingStor上,然后利用HashData提供的命令将QingStor中的数据并行加载到数据仓库中。

从Hadoop中加载数据:青云QingCloud提供了基于Hadoop框架的大数据处理服务。经过大数据平台加工后存放在HDFS上的数据可以通过HashData数据仓库的SQL语句直接加载到数据仓库中。

其它数据源:青云QingCloud提供了很多数据服务,如关系型数据库MySQL和PostgreSQL,NoSQL数据库MongoDB,缓存服务redis,消息服务Kafka,以及服务器本身。在后续版本开发中,HashData会逐步实现相应的访问协议从这些服务将数据加载到数据仓库中。

为了充分利用云平台的特性,HashData数据仓库在PostgreSQL和Greenplum Database的基础上对系统架构和运行实现进行了深度的优化,但查询接口(甚至是使用习惯)以及底层数据文件存储格式和访问协议保持与开源版本的PostgreSQL和Greenplum Database一致。即便是那些为青云QingCloud数据服务而开发的访问协议代码也将陆续开源。所以,使用HashData数据仓库完全没有数据绑架的风险。

丰富的分析功能

作为企业级的数据库和数据仓库产品,PostgreSQL和Greenplum Database提供了丰富的分析功能。HashData数据仓库在继承这些功能的同时,并结合云平台的特性进行了调整和改进。

SQL: HashData数据仓库实现了ANSI SQL 2008标准和2003 OLAP扩展,支持标准的JDBC和ODBC接口。业界常用的ETL和BI工具都可以支持HashData数据仓库作为分析引擎。

用户自定义分析:通过支持用户自定义数据处理函数,HashData数据仓库大大扩展了自身的分析能力。支持的语言包括PL/Pgsql,PL/C,PL/Python,PL/JAVA和PL/R。

机器学习:HashData数据仓库原生支持Apache MADlib,一个开源的,基于SQL的in-database机器学习库。Apache MADlib基本包含了所有常见的机器学习方法。

其它:全文检索和地理信息处理是很重要的分析功能。PostgreSQL社区提供了相应的扩展和项目,但这些功能模块现在只支持单机版的执行引擎。HashData数据仓库计划在未来的版本中提供基于这些项目的并行全文检索和地理信息处理功能。

总结

上面讨论了很多HashData数据仓库的技术功能,但如同酷克数据的公司使命,HashData数据仓库云服务给企业带来的真正价值在于,它降低了企业进行大数据分析的技术门槛,消除了规划、购买和运维大量基础设施给企业带来的负担,让企业专注于自己的核心业务上面。加载数据,分析数据,挖掘价值,其他一切交给HashData!



Tags:HashData   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
自创立之日起,酷克数据一直致力于降低企业进行大数据分析的门槛,推动数据民主化。今天,我们朝这个目标迈出了第一步:酷克数据在青云QingCloud上推出基于PostgreSQL和Greenplum D...【详细内容】
2020-08-03  Tags: HashData  点击:(269)  评论:(0)  加入收藏
▌简易百科推荐
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(9)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(25)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(39)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
本人03年开始从事贸易行业,多年来一直致力于外贸获客和跨境电商选品等领域,最近有些小伙伴反馈海关数据演示的都挺好为啥用起来不是那么回事?大家看到数据时关注的有产品、采购...【详细内容】
2021-10-28  QD云龙    Tags:数据   点击:(33)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条