您当前的位置:首页 > 互联网百科 > 大数据

大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

时间:2021-06-25 10:11:46  来源:  作者:远齐科技
大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

 

01.什么是大数据?

数据是对客观事实进行记录的一种符号,可以是数字、文字,也可以是图片、音频、视频。大数据是指无法在一定时间范围内用常规软件进行捕捉、管理和数据的数据集合。

大数据具有"5V"特点,即数据量大、数据多样性、价值密度低、增长速度快、数据质量低。

大数据时代强调数据的全部,而不是局部的样本数据。由于大数据的价值密度低,我们要接受这种模糊和不精确性。通过对数据的研究,发现以前不曾发现的联系,而不是像小数据时代,先通过假设,然后再用数据来验证。也就是说,在大数据时代,对相关性的重视程度要强于因果性。

02.什么是结构化和非结构化数据?

结构化数据是适合用二维表格展现的数据。每一行是一条记录,每一列是不同的字段。

电商网站为例,用户信息就可以用结构化数据来存储。每位用户就是一条记录,而每位用户又有姓名、性别、地址、手机、邮箱等字段,这样就形成了一个二维表格。

大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

 

非结构化数据不适合用二维表格来展现,比如文档、图片、音频、视频等。非结构化数据的格式多样,难以标准化和理解,因此在存储、检索、利用上都需要更加有效的方法和技术。

03.什么是数据库?

数据库从字面意思来看就是存储数据的地方,但数据的存储不是杂乱无章的,而是按照一定的规则来存储的,具有可共享和便于管理的特点。数据库被视为电子化的文件柜。用户可以对数据库中的数据进行增、删、改、查等操作。

数据库可分为关系型数据库、非关系型数据库、数据仓库等类型。

04.什么是关系型数据库?

关系型数据库是指使用关系模型来组织数据的数据库。关系模型可以简单理解为二维表格模型,以行和列的形式存储数据,因此适合存储结构化数据。关系型数据库就是由多个二维表格及其之间的关系组成的数据库。

常见的关系型数据库有MySQL、SQL Server、PostgreSQL、Oracle等。

以电商网站为例,除了用户信息之外,还要记录产品信息和订单信息。为简化起见,每个订单只包含一种产品。产品包括名称、价格、图片、介绍等字段,订单包括所属用户、相关产品、订购数量、订单价格、下单时间等字段。一个用户拥有一个或多个订单,而一个产品也会属于一个或多个订单,这样就建立了用户、订单和产品之间的关系。

大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

 

05.什么是非关系型数据库?

相对关系型数据库而言,非关系型数据库抛弃了固定的二维表格结构,存储机制灵活,比如键值对、文档、图形等格式都可以进行存储。

常见的非关系型数据库有redis、MongoDB、Cassandra等。

性能是非关系型数据库最大的优势。由于关系型数据库中的关系模型会占用掉90%的硬件资源及计算时间,对于有大量不需要关系功能的数据处理,非关系型数据库的性能是非常高的。

另一方面,正是由于缺少数据表之间的关系,非关系型数据库很难在多个表之间做非常复杂的数据查询。

06.什么是时序数据库?

时序数据库是一类特殊的非关系型数据库,全称是时间序列数据库。经研究发现,机器设备、传感器、系统日志等产生的数据有如下明显的特征:

数据是时序的,即按照一定时间顺序生成;

数据极少有更新或删除操作;

数据产生频率快、数据信息量大;

数据往往带有位置信息。

传统的关系型数据库或非关系型数据库对于这类数据,在性能提升上极为有限,只能依靠集群技术,投入更多的计算资源和存储资源来处理,造成企业运营成本急剧上升。而时序数据库可以有效地处理庞大的数据,通过创新的列式存储和先进的压缩算法,使用的计算资源不到传统方案的1/5,存储空间不到通用数据库的1/10。

常见的时序数据库有InfluxDB等。

07.什么是分布式存储?

分布式存储是相对于集中式存储而言的。分布式存储是由标准服务器(硬件)和分布式文件系统(软件)组成的,可扩展至千台硬件节点,支持块存储、对象存储、文件存储等多种类型统一管理。

常见的分布式文件系统有HDFS、Ceph、GFS、GPFS、Swift等。

举个通俗易懂的例子,如果把存储比喻成车厢,数据比喻成货物。集中式存储方案下,如果要想拉更多的货物,只能更换更大的车厢。而分布式存储方案,直接增加车厢就可以了。有了分布式存储技术,存储EB级别(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量数据库都不成问题。

大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

 

08.什么是数据集成?

由于开发部门或开发时间的不同,企业中往往有多个异构的、运行在不同的软硬件平台上的数据库,这些数据库彼此独立、相互封闭,使得数据难以在系统之间交流和共享,从而形成了"信息孤岛"。随着信息化应用的不断深入,企业内部之间、企业与外部的信息交互的需求日益强烈,急切需要对已有的数据进行整合,打通"信息孤岛",这就是数据集成的意义。

数据集成是把不同来源、不同种类、不同格式的数据在物理上或逻辑上进行集中,为企业提供全面的数据共享。数据集成主要解决的问题是各个数据源的异构性,包括数据库的异构性、通信协议的异构性、数据类型的异构性、数据取值的异构性等。

09.什么是数据清洗?

数据清洗是一种清除错误数据、去掉重复数据的技术。数据经过清洗之后,可以还保存到原来的数据库中,也可以和数据集成联系在一起,最终保存到集成后的数据库里。

举几个数据清洗的实例:

1.在用户信息表中,规定有姓名、性别、地址、手机、邮箱五个字段是必填的。而某些用户缺少某些字段的值,因此需要补充这些数据。

2.英文的姓名之间规定要有空格,而某些姓名没有空格,比如"JohnSmith",就需要修正这类错误。

3.有些数据表的金额单位是元,有些数据表的金额单位是万元,数据集成时就需要统一单位。

4.两条用户记录完全重复,需要进行去重处理。

10.什么是ETL?

ETL是Extraction、Transformation、Loading三个单词的首字母缩写,指的是数据抽取、转换、加载的过程。

数据抽取是从不同的数据源中获取我们需要的数据的过程,和数据集成的概念类似,这个过程往往会做一些数据清洗和数据转换。数据转换的任务主要是进行数据格式的转换和一些业务规则的计算。数据加载通常是指在数据清洗和数据转换完成后,写入到目标数据库中去。

大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

 

11.什么是数据分析?

数据分析是基于商业需要,有目的的对数据进行收集、整理、加工、分析,最终提炼有价值的信息的过程。

数据分析的四个步骤:

需求分析、明确目标;

数据收集、加工处理;

数据挖掘、数据展现;

分析报告、提炼价值。

大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

 

12.什么是数据埋点?

所谓数据埋点就是从应用的特定流程中收集一些信息,跟踪用户使用的状况,用来提供运营的数据支撑,进一步优化产品。

常见的信息包括独立访客数(UV)、页面浏览量(PV)、页面停留时长、页面跳出率、交互元素的点击事件等。

数据埋点通常有两种方式:

第一种是研发团队在产品中注入代码,并搭建响应的查询平台;

第二种是借助第三方数据埋点工具,如神策数据、百度统计等。

13.什么是数据仓库?

数据仓库 (Data Warehouse) 简称DW,存储大量数据的集成中心。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

14.什么是数据集市?

数据仓库是面向整个企业的,而数据集市是面向部门的,因此规模更小,由业务部门设计、开发、管理、维护,可以理解为是数据库的子集。

数据集市就像宜家楼上的家居展厅,正如其名字"集市"一样,是一个面向最终顾客的数据市场。在这里,数据(家具)以一种更加容易被顾客接受的方式组合在一起。顾客的需求是分场景的,比如客厅、书房、卧室、厨房等,因此我们需要创建多个数据集市(展厅)。

15.什么是数据湖?

数据湖至今仍然没有一个特别标准的概念,比较统一的是数据湖存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。数据湖就是一个存储了企业所有原始数据的存储,对于这些原始数据的管理则更加复杂。

以宜家家居为例,数据湖的原始数据就相当于拆散的零部件,顾客可以根据实际需要挑选零部件后自行组装。

16.什么是数据挖掘?

数据挖掘就是从大量的实际应用数据中,提取隐藏在其中的有价值的信息的过程。

一般而言,数据挖掘分为两类:一类是监督学习,另一类是无监督学习。监督学习是对目标需求的概念进行学习,通过建立模型来实现从观察变量到目标需求的有效解释。无监督学习没有明确的标识变量来表达目标需求,主要任务是探索数据之间的内在联系和结构。

数据挖掘融合了多学科领域的知识,常用的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析等。

17.什么是数据可视化?

数据可视化就是借助图形化的手段,清晰有效地传达与沟通信息。

利用人类对形状、颜色的敏感,有效地传递信息,帮助用户从数据中发现关系、规律和趋势。常用的数据可视化图表有柱状图、条形图、饼图、雷达图、折线图、堆积图、散点图等。

大数据时代必须了解18个概念:数据仓库、商业智能、数据可视化…

 

18.什么是商业智能?

商业智能(BI,Business Intelligence)是对商业信息的搜集、管理和分析过程,目的是使企业决策者获得洞察力,做出对企业更有利的决策。

从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、联机分析处理、数据挖掘、数据备份和恢复等技术的综合应用。

 

19.结语

远齐科技基于成熟的软件架构、互联网、物联网、大数据、人工智能等技术构建面向未来的集成开发平台系统。在自有集成开发平台基础上,基于最佳业务实践开发出丰富的软件功能模块、业务系统,为企业提供高效的定制化开发服务。



Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
为啥这几年偷税漏税的新闻这么多?不是偷的人多了,是因为国家有了查税大杀器: ...【详细内容】
2021-12-24  Tags: 大数据  点击:(8)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  Tags: 大数据  点击:(9)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  Tags: 大数据  点击:(25)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  Tags: 大数据  点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  Tags: 大数据  点击:(15)  评论:(0)  加入收藏
日前,北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》,《报告》基于本市2020年度相关调研数据,按照行业、职位、群体等维度对薪酬数据进行了分析,首...【详细内容】
2021-11-04  Tags: 大数据  点击:(28)  评论:(0)  加入收藏
架构是数据仓库建设的总体规划,从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系,描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么,架构就...【详细内容】
2021-11-03  Tags: 大数据  点击:(34)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29  Tags: 大数据  点击:(31)  评论:(0)  加入收藏
如今社会,手机电话在中国的使用率已达到99%以上,大大的地增强了我们的生活水平。而电话不但用以日常生活,还可以用以工作中,例如电话营销,电话便是他们的武器装备,他们根据手机的...【详细内容】
2021-10-26  Tags: 大数据  点击:(44)  评论:(0)  加入收藏
《个人信息保护法》11月1日即将生效,在大数据营销充斥在网络上的现在,如何引导大数据为善,如何更好的使用开发大数据,变得既重要也有现实意义。...【详细内容】
2021-10-26  Tags: 大数据  点击:(35)  评论:(0)  加入收藏
▌简易百科推荐
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(9)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(25)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(39)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
本人03年开始从事贸易行业,多年来一直致力于外贸获客和跨境电商选品等领域,最近有些小伙伴反馈海关数据演示的都挺好为啥用起来不是那么回事?大家看到数据时关注的有产品、采购...【详细内容】
2021-10-28  QD云龙    Tags:数据   点击:(33)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条