您当前的位置:首页 > 电脑百科 > 程序开发 > 架构

如何构建六层大数据堆栈架构

时间:2023-11-10 14:55:35  来源:企业网D1Net  作者:

面对大数据挑战而扩展其传统基础设施的企业应考虑使用专门构建的软件产品和服务来构建大数据堆栈架构

大数据堆栈是一套互补的软件技术,用于管理和分析对于传统技术来说太大或太复杂的数据集。大数据堆栈技术——最常用于分析——是专门为应对数据大小、速度和种类的增长而设计的。大数据产品和服务通常用于管理数据管道中的数据,以提供及时高效的业务洞察。

企业可以考虑几个流行的大数据堆栈,每个堆栈都有一套技术和开源替代方案,无论他们是选择套装堆栈还是构建自己的堆栈,大数据堆栈都已成为现代数据架构的主要组成部分。

大数据面临的挑战

大数据通常被描述为规模和复杂性,这带来了独特的挑战,称为三个V:

  • 数据量-人和机器生成的数据量,通常,机器生成的数据(例如传感器数据)量远远大于人类生成的交易数据,海量的静态和动态数据给企业带来了挑战。
  • 速度-数据的速率,机器生成的数据通常比人类生成的数据产生的频率更高,挑战在于企业收集和处理数据的巨大速度,尤其是在实时流架构中。
  • 多种多样-数据的多样性,数据采用的三种主要形式包括结构化、半结构化和非结构化。各种各样的结构不同的数据——通常需要不同的方法——带来了新的挑战。

传统软件技术无法处理的三种情况中的任何一种都被认为是大数据。

大数据堆栈的架构层

要应对大数据的挑战,企业必须将目光投向传统数据处理基础设施以外的领域,求助的一个领域是特殊用途的大数据软件技术,当配合使用时,大数据技术可以克服大数据面临的挑战。

以下6层是成功的大数据堆栈架构的关键:

1、收集

大数据堆栈架构的第一步是数据收集。数据采集可以从各种内部和外部数据源进行推送或拉取。数据源的一些示例包括交易系统、物联网设备、社交媒体和静态日志文件。

大数据摄取软件处理大型静态数据集、小型实时数据集以及每个数据集的各种数据格式。大的数据集到达得很慢,小的数据集到达得很快。将模式和质量验证推迟到管道中的更远有助于更高的吞吐量。

2、储存

一旦收集,原始数据通常以文件的形式存储在数据湖中,该数据湖针对将数据输入分析管道进行了优化。原生格式存储库既是批量数据的着陆区,也是时间敏感型探索性查询的沙盒。

大数据存储软件存储各种格式的大文件和小文件,通常采用对象存储等分布式文件系统的形式。非瞬时数据可以在较长的保留期内持续存在,并且需要在数据的整个生命周期中使用自动分层的软件。

3、处理

处理包括准备静态的批量数据集和流动的动态数据以供分析。数据管理可以包括清理、整合、丰富、集成、过滤、聚合和以其他方式准备用于分析的数据。

大数据处理软件运行在大批量数据上,延迟更高,计算更复杂,需要长时间运行的高效率计算。使用分布式处理软件对较小的分区数据片段进行操作可以实现这一点。

大数据处理软件也可以处理高速的流数据,延迟更低,计算相对简单。流数据处理需要通过持续可用的流服务实现有保证的耐用性、订购和交付。

通过软件并行性、就地处理和读取时架构实现批处理和流性能。关键的大数据堆栈策略包括将数据和处理划分为同时执行的小单元,以及在分析存储加载期间最大限度地减少模式验证。

4、提炼

分析数据存储处理或提炼数据以供分析。数据存储的示例包括基于SQL的多维数据仓库、NoSQL技术和具有抽象层的分布式数据存储,该抽象层用于通过接口访问各种数据类型。

大数据分析商店支持多种存储方法和技术,称为多语言持久性。专用单一模型数据库通过优化数据存储和处理特定数据类型来提供性能和可扩展性。基本策略包括数据处理、并行执行和数据分区。

5、分析

分析检查分析数据存储和原始存储,处于交互环境中的人类用户使用BI工具通过可视化获得洞察力,先进的分析工具处理数据以提取情报,机器学习使用人工智能直接处理数据来自我学习。

大数据分析软件处理从简单的即席查询到复杂的预测分析和机器学习操作的查询。用户范围包括临时分析师、数据科学家和机器。由于数据通常是分散的,就地分析是必不可少的,因此软件应该通过数据交换矩阵的虚拟化向用户呈现数据生态系统的统一视图。

6、编排

大数据堆栈通常使用工作流技术来管理源数据收集、原始数据存储和数据处理等数据操作,运营还包括将精炼数据移动到分析数据存储,以及将洞察力直接推送到商业智能应用程序,如报告和仪表板。

大数据协调软件可自动化数据管道,从而最大限度地减少延迟并缩短实现价值的时间。工作流软件提供了易于使用的管理界面和架构组件之间的无缝集成。

选择大数据堆栈

在选择大数据技术或堆栈之前,企业应量化其当前和未来的数据挑战,了解传统软件的局限性,并注意大数据行业趋势。他们应该定期重新评估自己的评估,因为大数据和技术演变是不断变化的目标。

重要的是要确保技术选择是模块化的和松散耦合的,以允许即插即用策略中的更改,而对其他堆栈软件的影响最小或没有影响。专注于专门为解决体系结构中的独特挑战而设计的软件,而不是多用途软件。

数据驱动型企业了解处理大数据是一项核心能力。专用大数据软件可以应对规模性和复杂性的数据挑战。与传统数据软件一起,大数据堆栈有助于管理数据并提供及时的业务洞察。



Tags:架构   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
对于微服务架构监控应该遵守的原则
随着软件交付方式的变革,微服务架构的兴起使得软件开发变得更加快速和灵活。在这种情况下,监控系统成为了微服务控制系统的核心组成部分。随着软件的复杂性不断增加,了解系统的...【详细内容】
2024-04-03  Search: 架构  点击:(4)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27  Search: 架构  点击:(13)  评论:(0)  加入收藏
哈啰云原生架构落地实践
一、弹性伸缩技术实践1.全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题,包括时机、容量、效率和成本问题,弹性伸缩是云原生容器化后的必然技术选择...【详细内容】
2024-03-27  Search: 架构  点击:(10)  评论:(0)  加入收藏
京东小程序数据中心架构设计与最佳实践
一、京东小程序是什么京东小程序平台能够提供开放、安全的产品,成为品牌开发者链接京东内部核心产品的桥梁,致力于服务每一个信任我们的外部开发者,为不同开发能力的品牌商家提...【详细内容】
2024-03-27  Search: 架构  点击:(9)  评论:(0)  加入收藏
从 MySQL 到 ByteHouse,抖音精准推荐存储架构重构解读
ByteHouse是一款OLAP引擎,具备查询效率高的特点,在硬件需求上相对较低,且具有良好的水平扩展性,如果数据量进一步增长,可以通过增加服务器数量来提升处理能力。本文将从兴趣圈层...【详细内容】
2024-03-22  Search: 架构  点击:(23)  评论:(0)  加入收藏
全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
北京时间3月19日4时-6时,英伟达创始人黄仁勋在美国加州圣何塞SAP中心登台,发表GTC 2024的主题演讲《见证AI的变革时刻》。鉴于过去一年多时间里AI带来的生产力变革,以及英伟达...【详细内容】
2024-03-19  Search: 架构  点击:(17)  评论:(0)  加入收藏
高并发架构设计(三大利器:缓存、限流和降级)
软件系统有三个追求:高性能、高并发、高可用,俗称三高。本篇讨论高并发,从高并发是什么到高并发应对的策略、缓存、限流、降级等。引言1.高并发背景互联网行业迅速发展,用户量剧...【详细内容】
2024-03-13  Search: 架构  点击:(5)  评论:(0)  加入收藏
有了LLM,所有程序员都将转变为架构师?
编译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)生成式人工智能是否会取代人类程序员?可能不会。但使用生成式人工智能的人类可能会,可惜的是,现在还不是时候。目前,我们正在见...【详细内容】
2024-03-07  Search: 架构  点击:(19)  评论:(0)  加入收藏
如何判断架构设计的优劣?
架构设计的基本准则是非常重要的,它们指导着我们如何构建可靠、可维护、可测试的系统。下面是这些准则的转换表达方式:简单即美(KISS):KISS原则的核心思想是保持简单。在设计系统...【详细内容】
2024-02-20  Search: 架构  点击:(36)  评论:(0)  加入收藏
通用数据湖仓一体架构正当时
这篇博文中提出的建议并不新鲜。事实上许多组织已经投入了数年时间和昂贵的数据工程团队的工作,以慢慢构建这种架构的某个版本。我知道这一点,因为我以前在Uber和LinkedIn做过...【详细内容】
2024-01-15  Search: 架构  点击:(75)  评论:(0)  加入收藏
▌简易百科推荐
对于微服务架构监控应该遵守的原则
随着软件交付方式的变革,微服务架构的兴起使得软件开发变得更加快速和灵活。在这种情况下,监控系统成为了微服务控制系统的核心组成部分。随着软件的复杂性不断增加,了解系统的...【详细内容】
2024-04-03  步步运维步步坑    Tags:架构   点击:(4)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27    InfoQ  Tags:架构模式   点击:(13)  评论:(0)  加入收藏
哈啰云原生架构落地实践
一、弹性伸缩技术实践1.全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题,包括时机、容量、效率和成本问题,弹性伸缩是云原生容器化后的必然技术选择...【详细内容】
2024-03-27  哈啰技术  微信公众号  Tags:架构   点击:(10)  评论:(0)  加入收藏
DDD 与 CQRS 才是黄金组合
在日常工作中,你是否也遇到过下面几种情况: 使用一个已有接口进行业务开发,上线后出现严重的性能问题,被老板当众质疑:“你为什么不使用缓存接口,这个接口全部走数据库,这怎么能扛...【详细内容】
2024-03-27  dbaplus社群    Tags:DDD   点击:(11)  评论:(0)  加入收藏
高并发架构设计(三大利器:缓存、限流和降级)
软件系统有三个追求:高性能、高并发、高可用,俗称三高。本篇讨论高并发,从高并发是什么到高并发应对的策略、缓存、限流、降级等。引言1.高并发背景互联网行业迅速发展,用户量剧...【详细内容】
2024-03-13    阿里云开发者  Tags:高并发   点击:(5)  评论:(0)  加入收藏
如何判断架构设计的优劣?
架构设计的基本准则是非常重要的,它们指导着我们如何构建可靠、可维护、可测试的系统。下面是这些准则的转换表达方式:简单即美(KISS):KISS原则的核心思想是保持简单。在设计系统...【详细内容】
2024-02-20  二进制跳动  微信公众号  Tags:架构设计   点击:(36)  评论:(0)  加入收藏
详解基于SpringBoot的WebSocket应用开发
在现代Web应用中,实时交互和数据推送的需求日益增长。WebSocket协议作为一种全双工通信协议,允许服务端与客户端之间建立持久性的连接,实现实时、双向的数据传输,极大地提升了用...【详细内容】
2024-01-30  ijunfu  今日头条  Tags:SpringBoot   点击:(8)  评论:(0)  加入收藏
PHP+Go 开发仿简书,实战高并发高可用微服务架构
来百度APP畅享高清图片//下栽のke:chaoxingit.com/2105/PHP和Go语言结合,可以开发出高效且稳定的仿简书应用。在实现高并发和高可用微服务架构时,我们可以采用一些关键技术。首...【详细内容】
2024-01-14  547蓝色星球    Tags:架构   点击:(114)  评论:(0)  加入收藏
GraalVM与Spring Boot 3.0:加速应用性能的完美融合
在2023年,SpringBoot3.0的发布标志着Spring框架对GraalVM的全面支持,这一支持是对Spring技术栈的重要补充。GraalVM是一个高性能的多语言虚拟机,它提供了Ahead-of-Time(AOT)编...【详细内容】
2024-01-11    王建立  Tags:Spring Boot   点击:(124)  评论:(0)  加入收藏
Spring Boot虚拟线程的性能还不如Webflux?
早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章,觉得还不错。内容较长,抓重点给大家介绍一下这篇文章的核心内容,方便大家快速阅读。测试场景作者采用了一个尽可...【详细内容】
2024-01-10  互联网架构小马哥    Tags:Spring Boot   点击:(115)  评论:(0)  加入收藏
站内最新
站内热门
站内头条