您当前的位置:首页 > 互联网百科 > 大数据

基于云平台的数据处理模式

时间:2020-06-15 23:23:06  来源:  作者:

在过去 30 年中,我们看到生成数据以满足当前业务和用户需求的设备及软件的数量呈指数级增长。用户随时随地可以用各种智能设备相互链接,并生产和消费各种类型的数据,由此触发的协作 分析 决策又源源不断地生成新的数据。

而数据格式越来越丰富多才,包含且不限于文本、流、音频、视频和元数据。 同时数据除了传统关心型数据库中的结构化、也有大量的非结构化的或聚合的半结构化数据类型。

还好云平台为海量的,多种格式,不同结构的数据存储和处理提供了全面丰富的技术支撑,可以安全地存储、转换、处理、分析和可视化各种数据格式。

猫老师说过,问题从来不是问题,使用什么样的方法来解决问题,才是我们的问题。要利用好云平台出来数据,我们需要从问自己四个问题

  1. 一共有那些数据类型
  2. 数据如何流动
  3. 数据处理过程是怎样的
  4. 如何分析数据

当然了不同行业同时叠加不同应用场景,以上四个问题的答案显然需要具体情况具体分析无穷无尽。今天在这里猫老师使用一些云端处理数据的最佳实践,展现一下套路

数据的结构化类型

基于云平台的数据处理模式

数据结构类型

结构化数据是完全符合表中的行和列架构(或者关系)的组织化数据。比如SQL里面的数据,这类数据量少,但是商业价值高

非结构化数据并不符合表结构,也没有架构。指的就是文本文件,日志文件,音视频文件等等,这类数据量特别大,产生速度极快,且价值低。

半结构化数据也具有组织性且有明确的属性和值,但数据存在多样性。比如JSON XML等等典型的互联网数据,虽然也存放在某个表里,但是他们并不能存放在适用于结构化数据的关系型数据库,因为关系型数据库的ACID特性在某一个或者某几个方面不适用这些数据类型

数据的流动过程

基于云平台的数据处理模式

数据流动过程

如图所示,处理数据的过程就是给非结构化数据做结构化出来,最终转成结构化数据存放在关心型数据库的过程,那么数据库是数据的最终归宿吗,显然不是,无论原始数据是什么格式形态最终都要被转到 Excel 里,由表格表姐们一顿劈里啪啦的操作最终变成 PPT 各种曲线图 饼图,当然了数据库也可以接BI系统,直接生成各种各样的 dashboard 交付给高管。这是一种数据增值的过程,其实也是一种路径依赖。对于数据这种流动,或者增值,往往企业需要构建一条管道,也就是常说的 pipeline 来沟通各个不同环节所涉及的产品,自动化地运行。

数据的处理过程:ETL 和 ELT

首先名词解释 E Extraction,数据提取,T Transformation 数据转换,L 数据加载

基于云平台的数据处理模式

ETL

传统的模式,是ETL,就是加载-转换-加载,因为在之前的传统商业环境中,数据量不大,不像后续的社交网络 IoT那么多汹涌澎湃的数据浪涌,且数据分析方式单一,所以可以四平八稳的,把数据按照后续处理的需求进行转换再加载到数据库当中。

基于云平台的数据处理模式

ELT

但是到了互联网年代,尤其是移动互联网,只要企业亲自处理互联网的流量,就必须使用 ELT 了,ELT 以数据的原生格式提取和加载数据。 此更改减少了将数据加载到目标系统所需的时间。在转换阶段定义数据的结构,因此可以在多个下游系统中使用源数据 简单来说就是数据先上车,如何转换格式日后再曰。

数据的分析架构:Lambda 和 KAppa

基于云平台的数据处理模式

Lambda

如果所面对的业务逻辑是设计一种稳健的机器学习模型来预测即将发生的事情,那么你应该优先考虑使用 Lambda 架构,因为它拥有批处理层和速度层来确保更少的错误。

Query = λ (Complete data) = λ (live streaming data) * λ (Stored data)

举个天气预报的例子,一方面我们有100多年来的气象脱机资料帮我们算某一日的降水概览,同时还要叠加气象卫星 各个地面气象站的实时信息才能实现较为精准的预报。

基于云平台的数据处理模式

Kappa

如果所面对的业务逻辑是希望实时性比较高,而且客户端又是根据运行时发生的实时事件来做出回应的,那么就应该优先考虑使用 Kappa 架构。

Query = K (New Data) = K (Live streaming data)

这方面的例子就是防电信欺诈,预先使用机器学习对电信欺诈的特征固化成模型,在交易当中发现异常的转账操作立即进行关于,这必须要在毫秒级做出判断来不及再去比对历史积累,必须要快。

这就是个人总结的基于云平台进行数据处理和分析的一些基本套路,后续猫老师还会顺着这个思路介绍相关产品和机器学习 人工智能方面的一些业界进展和最佳实践,谢谢大家!



Tags:数据处理模式   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
在过去 30 年中,我们看到生成数据以满足当前业务和用户需求的设备及软件的数量呈指数级增长。用户随时随地可以用各种智能设备相互链接,并生产和消费各种类型的数据,由此触发的...【详细内容】
2020-06-15  Tags: 数据处理模式  点击:(89)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(2)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条