您当前的位置：首页 > 互联网百科 > 大数据

20道大数据常见面试题

时间：2019-08-08 14:31:12 来源：作者：

+ 加入收藏

1.Hadoop分布式集群与伪分布式集群的区别

分布式集群需要多台电脑,，一台为奴隶主机，其他的为奴隶机用来存储数据。

伪分布式集群可以使用一台电脑搭建，也可以使用多台电脑，只需要在slaves中添加自己的主机名就可以了，其他的与分布式一样。

2.Hadoop分为三个核心部分，每个部分是什么，有什么功能？

三个核心：hdfs，mapreduce和yarn

Hadfs：分布式文件系统，mapreduce:分布式计算框架，yarn：资源调度器

功能：hdfs：由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。用于存储文件，通过目录树来定位文件

Mapreduce：采用“分而治之”的思想，来处理大规模的数据。将数据拆解成多个部分，并利用集群的多个节点同时进行数据处理，然后将各个节点得到的中间结果进行汇总，经过进一步的计算（该计算也是并行进行的），得到最终结果

3.Hadoop分布式集群，默认备份数为多少，每个数据块大小是多少？在哪个配置文件中可以修改备份数与每个数据块大小？

默认备份为3份，每块数据大小128M，在hdfs-site.xml配置文件中可以修改备份数和数据块大小。

<property>
<name>dfs.block.size</name>
<value>128</value>
</property>
 <property>
 <name>dfs.replication</name>
 <value>3</value>
 </property>

4.Hadoop分布式集群中NN和DN、SN，指得是什么？他们分别有什么作用？

NN：Name Node 管理HDFS的命名空间,配置副本策略,管理数据块（Block）映射信息,处理客户端读写请求

DN：DataNode 存储实际的数据块,执行数据块的读/写操作

SN：SecondaryNameNode 辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode ,在紧急情况下，可辅助恢复NameNode

5.Hadoop分布式集群中，如果NN挂掉，会出现什么情况？如果DN挂掉，会出现什么情况？如果SN挂掉，会出现什么情况？数据会丢失吗？

NN挂掉，数据丢失，分布式集群崩溃，DN挂掉，由于其他机器中存有备份，数据不会丢失，正常情况下对分布式集群不会出现大问题，SN挂掉，数据不会丢失，只是失去了对NameNode中映射的备份，为了防止意外（NN挂掉），需要尽快恢复SN。

6.Hadoop集群中yarn模式，是什么？在分布式计算中有什么作用？

Yarn模式是资源调度器，

yarn在管理者机器中是ResourceManager，负责协调和管理整个集群（所有 NodeManager）的资源，响应用户提交的不同类型应用程序的解析，调度，监控等工作。

在奴隶机中是NodeManager，是真正执行应用程序的容器的提供者，监控应用程序的资源使用情况（CPU，内存，硬盘，网络），并通过心跳向集群资源调度器 ResourceManager 进行汇报以更新自己的健康状态。同时其也会监督 Container 的生命周期管理，监控每个 Container 的资源使用（内存、CPU 等）情况，追踪节点健康状况，管理日志和不同应用程序用到的附属服务（auxiliary service）。

7.请描述对文本单词统计中mapreduce的过程。（文字和流程图描述）

过程分为4个阶段：spilt，map，shuffle，reduce

MapReduce过程

8、Split阶段（分片输入）

有两份文件，经过分片处理之后，会被分成三个分片（split1，split2，split3）。依次作为map阶段的输入。

经过分片处理之后，产生了三个分片，每个分片就是一行的三个单词，分别作为 map 阶段的输入。

9、Map阶段

Split 阶段的输出作为 Map 阶段的输入，一个分片对应一个 Map 任务。在 Map 阶段中，读取 value 值，将 value 值拆分为的形式。key 为每个单词，value 为 1。

Map 阶段需要考虑 key 是什么，value 是什么。特别是 key ，他将作为后面 reduce 的依据。输出结果例如：<Deer, 1>，<River, 1>，<Bear, 1>，<Bear, 1>。

Map 阶段的输出会作为 Shuffle 阶段的输入。

10、Shuffle阶段

理解为从 Map 输出到 Reduce 输入的过程，而且涉及到网络传输。

将 Map 中 key 相同的都归置到一起，作为一个 Reduce 的输入

11、Reduce阶段

将 key 相同的数据进行累计。输出结果例如：<Beer， 3>。

12.Hadoop集群中请描述RM，NM是什么？有什么作用？

RM和NM都是属于hadoop yarn资源调度器：

RM：资源管理者：1、处理客户端请求2、启动或监控 MRAppMaster3、监控 NodeManager4、资源的分配与调度

NM：节点管理者：1、管理单个节点上的资源2、处理来自 ResourceManager 的命令3、处理来自 MRAppMaster 的命令

13.Hadoop集群中RM中分为几大模块，每个模块有什么作用？

RM分为：两个模块：ApplicationMaster (AM)和Containe。

ApplicationMaster (AM)：

用户提交的应用程序均包含一个AM，负责应用的监控，跟踪应用执行状态，重启失败任务等。ApplicationMaster是应用框架，它负责向ResourceManager协调资源，并且与NodeManager协同工作完成Task的执行和监控。

Container：

Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container 表示的。 YARN会为每个任务分配一个Container且该任务只能使用该Container中描述的资源。

14.ETL是什么？kettle有什么作用？你常用使用的核心对象有哪些？分别有什么作用？

ETL是：用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。

核心对象：BI和数据仓库

作用：BI：用来将企业中现有的数据（原始数据或商业数据或业务数据等）进行有效的整合，快速准确地提供报表并提出决策依据，帮助企业做出明智的业务经营决策。

数据仓库：它为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

15.hadoop集群中50070端口和8088端口，分别指的什么？

50070：奴隶主机的namenode；

8088：yarn资源调度器中的RM；里面有所有的进程完成情况

数据仓库hive中，启动hive服务器的命令有哪些？分别代表什么意思？内部表与外部表有啥区别？分区与分桶，指的是什么？

命令：hive --service metastore 启动元数据

hive：本地运行hive命令

hiveserver2：远程服务，开放默认端口 10000

内部表：内部表删除表时，数据也会被删除，

外部表：外部表在创建时需要加external，删除表时，表中的数据仍然会存储在hadoop中，不会丢失

分区：分文件夹：分目录，把一个大的数据集根据业务需要分割成小的数据集

分桶：分数据：分桶是将数据集分解成更容易管理的若干部分

16.什么是BI，什么是数据仓库？为什么需要用数据仓库hive？

BI:即商务智能，它是一套完整的解决方案，用来将企业中现有的数据（原始数据或商业数据或业务数据等）进行有效的整合，快速准确地提供报表并提出决策依据，帮助企业做出明智的业务经营决策。

数据仓库：是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建，对多样的业务数据进行筛选与整合。

为什么：hive为企业提供一定的BI（商业智能）能力，指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的输入方是各种各样的数据源，最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

17.数据仓库Hive跟hadoop集群，有什么关系？使用hive的好处是什么？

关系：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能，hadoop是用来存储数据的，hive是用来操作数据的。hive的数据文件存储在hdfs上，至于hdfs文件位置是由hadoop管理的。

好处：1)操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）

2)避免了去写MapReduce，减少开发人员的学习成本

3)Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合

4)Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高

5)Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

18.Hadoop集群中hadoop namenode –format ，可否在任意节点出，多次执行这条语句？如果执行多次语句后，会出现什么样的结果？如果在节点中执行语句，怎么修改？

不能，将hadoop格式化，将集群中所有的电脑name下的文件全部删除，重新启动hadoop

19.如何创建hive的外部表（包含分区与分桶）？在创建表时候和后期导入数据中，需要注意哪些问题？如何向hive的外部表中导入本地数据文件data.csv和外部hdfs上的/data.txt文件？

创建表的时候加入关键字：external，数据字段数量，类型要一致，分隔符要相同，导入数据时要不要覆盖，不覆盖的情况下不能用overwrite。

本地数据：load data local inpath '/home/user/data.csv' into table 导入的表名;

Hdfs：load data inpath '/home/user/data.txt' into table 导入的表名;

20.hive中集合数据类型什么？有什么作用？什么情况下，hive需要使用集合类型？

数据类型：包括6个基本类型：整数，布尔类型，浮点数，字符，时间类型。字节数组

2个集合数据类型： struct，map，array

基本数据类型表达不了的情况下使用集合类型

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(26)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(45)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　linyb极客之路　　　　Tags:数据脱敏　点击:(3)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(26)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(40)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游