您当前的位置：首页 > 互联网百科 > 大数据

看完这篇文，就算入门大数据了

时间：2020-02-10 20:34:08 来源：作者：

+ 加入收藏

这篇文章主要是入门大数据，不涉及到高深的知识点和理论，我相信每个人都看得懂。如果文章有错误的地方，不妨在评论区友善指出~

一、什么是大数据？

1.1 前置知识

众所周知，我们能存多少数据，是取决于我们硬盘的大小的。比如，我的磁盘的大小就256GB(实际能存储的大小是没有256GB的，但这里我就不展开了)，这意味着我这电脑只能存储比256GB要小的数据。

硬盘的大小

为了能够更好地管理计算机的数据(访问和查找变得更加简单)，我们就有了文件系统。

文件系统

有了文件系统，已经可以存储数据了（很方便我们去获取），那为什么还会有数据库呢？

文件系统存在以下缺点：数据共享性差，冗余度大；数据独立性差

数据库系统实现整体结构化，这是数据库系统与文件系统的本质区别。-----《数据库系统概论》

数据库其实就是为了针对特定类型数据处理而设计的系统，而文件系统则可看作通用型的数据存储系统 @知乎吴穗荣

再回到大数据上，大数据就看名字我们就知道：数据量很大。大到什么程度呢？一块普通的硬盘不能将一个文件存储下来。

那我还想将这个文件存下来，怎么办呢？方案其实很简单（说白了一个是垂直伸缩，一个是水平伸缩）：

多买几块硬盘，组成一个更大的“硬盘”，希望能容纳更多的数据。
- RAID（独立磁盘冗余阵列）技术是将多块普通磁盘组成一个阵列，共同对外提供服务。
- 比如，我现在觉得我的电脑16GB不够用了，而我的主板有两个内存槽，我多买一条16GB的内存条插入。那我就可以说，我的电脑是32GB内存的。
把这个文件切开几份，存到不同的硬盘中
- 比如我有1个TB的文件，我把它切分成5份，每份200G，存到不同的服务器中。

如果是普通的用户，肯定选择的是多买一块硬盘，升级硬件啊。但是互联网公司就不这样干，他们就选择将一个文件切分成几份，放到不同的服务器中。为什么？

顶级的电脑硬件成本很大。(单台计算机性能到一定的量上，再升级的成本就非常高)
单单一台顶级的电脑可能也无法处理掉这么大量的数据

垂直伸缩和水平伸缩

综上所述，目前互联网企业中都是选择水平伸缩在一个系统中添加计算机来满足不断增长的用户量和支撑数据的平稳运行。

1.2 解决存储问题

随着数据量越来越大，在一台机器上已经无法存储所有的数据了，那我们会将这些数据分配到不同的机器来进行存储，但是这就带来一个问题：不方便管理和维护

所以，我们就希望有一个系统可以将这些分布在不同操作服务器上的数据进行统一管理，这就有了分布式文件系统

HDFS是分布式文件系统的其中一种（目前用得最广泛的一种）

在使用HDFS的时候是非常简单的：虽然HDFS是将文件存储到不同的机器上，但是我去使用的时候是把这些文件当做是存储在一台机器的方式去使用（背后却是多台机器在执行）：

好比：我调用了一个RPC接口，我给他参数，他返回一个response给我。RPC接口做了什么事其实我都不知道的（可能这个RPC接口又调了其他的RPC接口）-----屏蔽掉实现细节，对用户友好

HDFS使用

1.3 解决计算问题

上面我们使用HDFS作为分布式文件系统，已经可以把数据存到不同的机器上(或者在不同的机器上读取到数据)。可以通过简单命令行的方式对文件的简单的存取。

现在呢，由于数据量是非常大的，分散到不同的机器上。我们想要对数据进行处理，我们肯定会有一段写好的程序。处理的方式有两种：

将数据传递给程序（机器A/B/C的数据传给机器D程序来执行）
程序到数据所在的地方执行（将程序分别到机器A/B/C上执行）

选哪个？我们一般会采用”程序到数据所在的地方执行“，因为在大数据里边我们的数据量很大，如果要把机器A/B/C的数据输入到机器D上，这样不划算。

数据量很大，通过网络传输大数据到某一台机器上做操作，不合适。
机器D只有一台机器，处理的效率低下。

所以我们会将程序分别放到机器A/B/C上处理，本来程序就非常小，放到别的机器上是轻轻松松的。还可以使用机器A/B/C的资源做运算，这就很合适了。

「将数据传递给程序」这种就是所谓的“移动存储到计算”，而「程序到数据所在的地方执行」这种就是所谓的“移动计算到存储的观念”。

在大数据的领域里， 移动计算比移动数据更划算。MapReduce就是这样干的：

每台机器执行任务的时候去检查自己有没有相应的程序，如果没有则通过网络下载程序包，然后通过反射来加载程序

二、大数据没有想象中神秘

在刚听到「大数据」这个词的时候，可能有的人会想问：所谓大数据，那数据是从哪里来的呢？

简单来说可以归类为三类：

日志
数据库
爬虫

1、爬虫应该很好理解，就是通过网络爬虫获取外部数据，将这些数据自己存储起来。很多的比价网站就是爬取各种电商网站的数据，然后比较各个网站的数据后得到结果。本身它们网站本身是没有这个数据的，这个数据是从别人那爬过来的。

2、数据库本来就已经存储了我们的数据，而我们要做的只是把数据库的数据导入我们的大数据平台那儿，让数据能够得到更好的分析。

3、日志这块其实我更多想说的是打点（埋点）这块。有的人会把这埋点和日志的概念分开，只是我把它给合在一起叫「日志」。日志有用户行为日志（埋点），也有系统的运行产生的日志。用户行为日志这块说白了就是：从你进去某个App的一刻开启。几乎你所有的操作都会被记录下来（点了某个tag、在某个tag停顿了多少秒）。猜你喜欢这类的系统就是根据你以往行为来对进行推荐。

好了，现在我们有不同的地方收集到数据，我们要最终要做的就是把这个数据汇总到一起来进行存储和分析。

于是我们就需要将日志、数据库、爬虫这些不同数据源的数据导入到我们的集群中（这个集群就是上面提到的，分布式文件系统（HDFS），分布式计算系统）。

由于数据源的不同，所以会有多种的工具对数据进行导入。比如将日志的数据收集我们会有Flume，从数据库同步我们会有Sqoop。这也就是所谓的ETL（萃取「extract」、转置「transform」、加载「load」）

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

（注：不要被上面的Sqoop、Flume 这样的名词给吓着了，其实就是现有的成熟的框架技术）

我们把所有的数据收集起来，把这个存储数据的地方叫做数据仓库。基于数据仓库我们统计能各种的指标，基于这些指标可以指导我们是否要做一个需求或决策。

比如说：现在我们要对APP的首页改版了，但不知道用户是否能接受这次的改版。于是我们就可以先对一少部分的用户做实验（这一部分的用户看到的是改版后的首页)，我们根据这一部分用户的行为来判断这一次的改版是否有比较好的效果。

用户的行为我们都有收集起来。只要将实验用户关联到对应的指标，与现有的指标做一次对比，我们大概就知道这次改版是否真的合理。

这种拿一部分流量做实验，我们也称这种做法为「ABTest」，如果对ABTest感兴趣的同学可以在我的GitHub下搜索关键字「ABTest」来阅读具体的文章哦~

最后

这篇文章简单的说了一下所谓的「大数据」中的数据是从哪里来的，由于数据量很大，所以我们要解决数据的存储和计算的问题。

基于存储和计算问题我们业内就提供了很多现成的技术实现了，下面图中的技术每一种类型我后续都会讲解到，可以关注我，不迷路哦。

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(26)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(45)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　linyb极客之路　　　　Tags:数据脱敏　点击:(3)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(26)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(40)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游