您当前的位置:首页 > 互联网百科 > 大数据

大数据技术演进实录:云原生大数据、湖仓一体、AI for Data,未来“谁主沉浮”?

时间:2022-11-28 17:41:02  来源:  作者:InfoQ

从大数据发展的历史长河来看,谷歌的“三驾马车”—— 《GFS》、《MapReduce》和《BigTable》,加上亚马逊的一篇关于 Dynamo 系统的论文奠定了大数据时代发展的基础。从“大数据之父”道格·卡丁创造了 Hadoop 到现在许多厂商开始单独造轮子、做开源,大数据的发展首先是获得了大规模数据的处理能力,然后再解决了数据的分析与挖掘问题,到如今又开始解决“如何实时查询数据”的问题,从近 20 年的发展中基本可以看出,这些演进的背后都是由企业需求和业务发展驱动的。

英特尔院士、大数据技术全球 CTO 戴金权曾提出,未来大数据的发展主要有三大方向:大数据平台云原生化;湖仓一体;大数据与人工智能重塑数据价值,本文将对三大方向逐一展开解读。

1 大数据平台云原生化是必然趋势

众所周知,大数据系统是一个复杂性很高的系统,传统的大数据系统运维成本很高,比如处理资源分配、进行容错等这些工作其实并不能对终端业务产生直接价值。然而,如今的大多企业都面临着日益增长的数据量、各种类型数据的实时化和智能化处理的需求,企业亟需降低运维成本,并希望能够通过对数据的挖掘产生支撑业务侧的洞见与预测!

于是,云原生大数据平台因为其高弹性扩展、多租户资源管理、海量存储、异构数据类型处理及低成本计算分析的特点,受到了企业的欢迎,这也是大数据系统的必然发展趋势,将大数据运行在云上,以云服务的形式提供给用户,能大大提高企业服务化能力,用户可以直接在云上进行价值挖掘。而且,当厂商通过云服务提供大数据技术后,很多新能力也变得很透明,企业无需经过摸索和集成,就可以将自己的服务无缝提供给用户。

但另外一方面,云原生大数据也有非常多的技术挑战。许多大数据系统最初并不是为云原生架构设计的,比如开发者在做数据的 Shuffle 时,思考的是如何利用本地 IO 能力来提高效率。

企业为了能够让业务更好地运行在云的体系架构之上,当前一般采用的都是架构层的解决方案,融合了高性能计算(HPC)强大算力和云服务安全性、易用性的云原生超级计算似乎是当前最佳的有效方案。但事实上,软件层的升级多少还是会受硬件层的影响。所以,不如换个方向,思考一下如何利用硬件能力来提高数据处理效率。

厂商在硬件层提升性能的方式往往是,通过使用服务器来响应对高性能计算 (HPC) 集群的需求,通过对 CPU 升级来处理更大规模的高性能计算 (HPC) 应用。像英特尔® 至强® 可扩展处理器提供业界领先、经工作负载优化的性能,具有内置人工智能加速功能,可提供无缝性能基础,就是许多企业的选择。

应对业务侧日益增长的需求和不断演变的数据服务模式,企业可利用英特尔® 至强® 可扩展处理器上集成的英特尔® 高级矢量扩展 512(英特尔® AVX-512)来继续进行工作负载优化创新。英特尔® 高级矢量扩展 512(英特尔® AVX-512)是一组指令集,可以加速工作负载和用例的性能,如科学模拟、金融分析、人工智能 (AI) / 深度学习、3D 建模和分析、图像和音频 / 视频处理、密码学和数据压缩等。英特尔® AVX-512 可以处理苛刻的计算任务,借助两个 512 位融合乘加 (FMA) 单元,应用程序在 512 位矢量内的每个时钟周期每秒可打包 32 次双精度和 64 次单精度浮点运算,以及八个 64 位和十六个 32 位整数,大大地提高了数据处理效率。

2 “湖仓一体”是解决实时性数据问题的新兴架构

随着人工智能等技术的兴起,数据规模越来越大,存储的数据类型也越来越丰富,与文字相比,体积更大空间的图片、声音和视频存储需求爆发。面对这些海量数据治理需求,数据仓库、数据湖架构被企业广泛应用。

当前许多人认为,面向领域主题的、集成的、稳定的、能够反映历史数据变化的数据仓库,已经满足不了 人工智能、机器学习技术的数据需求,开始逐渐走下坡路,数据治理架构正在逐渐从数据仓库跨越到数据湖。他们认为,数据湖是多结构数据的系统或存储库,以原始格式和模式存储,通常作为对象“blob”或文件存储,可以更好地解决企业数据需求,甚至有人认为数据湖就是下一代数据仓库。

事实上,大多数企业目前至少有一个或者多个数据仓库服务于各种下游应用程序,而且把所有的原始数据都放到数据湖,可能会提升数据的使用难度,对于企业数据治理来说也不是一个小的挑战;此外,从实时性方面,数据湖也做不到真正的实时。

然而,企业数据的使用场景如今已然发生巨大变化,需求从离线场景转变到实时数据分析场景。数据规模发展到一定程度后,离线数据的缺点就会愈发凸显,企业对于实时数据治理有了更高的要求,希望从业务端获取到数据后,能够立即被清洗处理,从而满足基于数据的挖掘、预测和分析。

所以“湖仓一体”作为一种新兴架构,结合了数据仓库与数据湖的优点,在类似数据湖的低成本存储上,实现了与数据仓库中类似的数据结构和数据管理功能,在扩展性、事务性以及灵活度上都体现出了独有的优势,是解决目前企业数据治理需求的更优解。

火山引擎与英特尔在云原生大数据领域深入合作,从用户云业务需求出发提升数据价值。从湖仓一体方面,英特尔技术团队和火山引擎技术团队联合对 ClickHouse 软件进行优化,通过对硬件指令等其他的优化,使 ClickHouse 核心代码的性能有了 1.5 倍以上的提升,ClickHouse(Repartition-Block shuffle)性能加速 4.2 倍。

英特尔和火山引擎 ByteHouse 的合作优化

总体而言,湖仓一体是一种更开放的新型架构,有人做了一个比喻,“这种操作方式类似于在湖边搭建了很多小房子,有的负责数据分析,有的运转机器学习,有的来检索音视频等,至于那些数据源流,都可以从数据湖里轻松获取。”

Gartner 也发布了湖仓一体的未来应用场景预测,“湖仓一体架构需要支持三类实时场景,第一类是实时持续智能;第二类是实时按需智能;第三类是离线按需智能。这三类场景将可以通过快照视图、实时视图以及实时批视图提供给数据消费者,这同样是未来湖仓一体架构需要持续演进的方向。”

3 “AI 与大数据一体化”重塑数据价值

如今各行各业都在探索怎样让 AI 在实际应用中提高工作效率或者体验,但有数据表明,85% 以上的人工智能项目都是以失败而告终的,并没有真正地得到交付。归其原因是,实验室中正在跑的人工智能模型、算法和真正落地到生产环境或业务场景中的东西要求是不一样的。这意味着,企业想真正地将算法、AI 模型运用到生产系统中,需要经过非常复杂的 AB 测试,但将 AI 模型算法和真实的业务数据流水线相结合是一个非常大的挑战。

回想一下,在构建一些 AI 架构时,大家通常的做法是利用一个大数据处理平台,然后对数据进行处理,处理完后再将数据拷贝到另外一个 AI 集群或是深度学习的集群中进行训练。显而易见,数据拷贝的过程会产生一定的时间成本和移植成本,解决了这个问题,可以大大提高企业研发效率,快速实现降本增效。

将大数据分析与 AI 平台融为一体的模式成为了企业解决以上问题的方案,其也正在成为一种行业的新趋势。构建一个端到端的大数据 AI 的流水线,将大数据 +AI 的流程从数据的获得、读取、数据的处理到特征的处理、建模、训练、部署、推理等流水线都统一起来,是实现 AI 真正落地的关键点。

为了支撑大数据的处理,英特尔在“AI+ 大数据”方面做的第一件事情就是构建统一的大数据 AI 平台、集群——英特尔 BigDL ,其是用于 Spark 的分布式深度学习库,可以直接在现有 Spark 或 Apache Hadoop 集群之上运行,并可以将深度学习应用程序编写为 Scala 或 Python/ target=_blank class=infotextkey>Python 程序。

作为底层计算平台,英特尔 BigDL 针对分布式的英特尔® 至强® 处理器 CPU 集群进行了大数据 AI 平台的构建,包括在硬件上的众多优化,包括 CPU 本身对 AI 的支持。虽然英特尔® 至强® 处理器是一个通用处理器,但它提供了非常多的硬件指令及针对 AI 优化和加速的硬件支持,包括在低精度 INT8 上的 AVX512_VNNI , 以提升 DL 性能。其主要具有以下特点:
 

  • 丰富的深度学习支持:基于 Torch BigDL 为深度学习提供全面支持,包括数值计算(通过 Tensor 和高级神经网络);此外,可以将预训练的 Caffe * 或 Torch 模型加载到 Spark 框架中,然后使用 BigDL 库运行推理应用他们的数据。
  • 高效的横向扩展:BigDL 可以通过使用 Spark 以及同步随机梯度下降 (SGD) 和 Spark 中的 all-reduce 通信的有效实现,有效地向外扩展以执行“大数据规模”的数据分析。

     

  • 极高的性能:BigDL 在每个 Spark 任务中使用英特尔® 数学核心函数库(英特尔® MKL)和多线程编程,BigDL 和英特尔® MKL 专为英特尔® 至强® 处理器设计和优化,可提供极高的性能。

     

 

万事达卡在企业的数据仓库建构在分布式大数据平台之上,便是直接用英特尔 BigDL 来构建 AI 应用,将大数据的数据处理与人工智能的处理直接统一起来,帮助平台支撑超过 20 亿的用户。平台上的几千亿的交易数据训练了非常多的 AI 模型,其中最大的模型在一个任务运行在 500 台以上的英特尔服务器上进行大规模分布式训练,差不多在 5 小时之内训练出一个大规模的 AI 模型,提高各种 AI 能力,实现了超大规模用户量的支撑。

4 写在最后

经过近 20 年的发展,大数据的技术栈逐渐成熟,“大数据”如今几乎已经是程序员技术栈的标配,基本上大多数应用环境都会牵扯到数据治理、数据处理。

近年来,云计算、人工智能等技术的发展,还有底层芯片和内存端的变化以及视频等应用的普及,都给大数据技术带来了新的要求。不管是应用基于数据还是要用数据改善应用,怎样能够把整个技术平台和软件平台做得更加易用,这对于厂商来说是亟待解决的难题。此外,人工智能、大数据技术的应用场景都非常广泛,但在具体应用开发的技术实现上还有很多缺陷,如何实现技术突破和技术创新,这是所有人都面临的难点。

我们可以预测到的是,未来的大数据技术会沿着异构计算、云化,AI 融合、内存计算等方向持续更迭,目前我们看到的这些难点应该都会被逐一解决,但当我们在进行算法、架构优化时,也要记得硬件是实现所有技术演进升级的基本盘。当在软件层找不到解决方案的时候,也可以尝试把目光放到硬件层。

大数据到底是什么?又该如何用它为我们服务?业界前沿技术有哪些?点击下方与英特尔院士戴金权深度对话,了解在 AI 时代重新解构大数据的概念、平台和价值。



Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
“霸王条款”“刷单炒信”“大数据杀熟”怎么破解?这部法规都明确了!
预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售……这些新领域的侵权你遇到过吗?消费者合法权益怎么保...【详细内容】
2024-04-11  Search: 大数据  点击:(3)  评论:(0)  加入收藏
市场监管总局:禁止“大数据杀熟”规范“自动续费”
本报讯 (记者韩昱) 近日,《中华人民共和国消费者权益保护法实施条例》(以下简称《条例》)正式发布。4月9日,国新办举行国务院政策例行吹风会,市场监管总局副局长柳军介绍《条例》有...【详细内容】
2024-04-10  Search: 大数据  点击:(2)  评论:(0)  加入收藏
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30  Search: 大数据  点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30  Search: 大数据  点击:(40)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  Search: 大数据  点击:(40)  评论:(0)  加入收藏
Java后端+Java大数据+前端
web前端开发主要涉及创建网页或网站的用户界面,包括布局、样式、动画、交互等。web前端开发需要掌握HTML、CSS、JavaScript等基础语言,以及各种框架和库,如React、Vue、Bootstr...【详细内容】
2023-12-28  Search: 大数据  点击:(104)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  Search: 大数据  点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19  Search: 大数据  点击:(41)  评论:(0)  加入收藏
MongoDB与大数据处理:构建高性能分布式数据库
MongoDB是一种非关系型数据库,具有高度灵活性和可扩展性。在处理大量数据时,索引的优化是提升查询性能的关键。下面将介绍一些MongoDB索引优化的指南,帮助用户更好地利用索引来...【详细内容】
2023-12-18  Search: 大数据  点击:(72)  评论:(0)  加入收藏
Java与MySQL大数据处理的技巧
处理海量数据是现代应用程序中常见的挑战之一,尤其是在Java与MySQL这样的技术栈中。下面将介绍一些处理海量数据的技巧和策略,并讨论如何通过Java与MySQL实现高效的大数据处理...【详细内容】
2023-11-29  Search: 大数据  点击:(213)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(52)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(41)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(67)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(64)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(64)  评论:(0)  加入收藏
站内最新
站内热门
站内头条