带你了解阿里大数据产品技术架构

时间：2019-04-24 13:02:13 来源：作者：

本文笔者将从数据采集层、数据计算层、数据服务层、数据应用层四大层次来带大家了解阿里大数据的产品技术架构。

2014年，马云提出：“人类正从IT时代走向DT时代”。

如果说在IT时代是以自我控制、自我管理为主，那么到了DT (Data Technology)时代，则是以服务大众、激发生产力为主。以互联网(或者物联网)、云计算、大数据和人工智能为代表的新技术革命正在渗透至各行各业，悄悄地改变着我们的生活。

在DT时代，人们比以往任何时候更能收集到更丰富的数据。

IDC的报告显示：预计到2020年，全球数据总量将超过40ZB (相当于40万亿GB)，这一数据量是2011年的22倍!正在呈“爆炸式”增长的数据，其潜在的巨大价值有待发掘。数据作为一种新的能源，正在发生聚变，变革着我们的生产和生活，催生了当下大数据行业发展热火朝天的盛景。

但是，如果不能对这些数据进行有序，有结构地分类组织和存储。如果不能有效利用并发掘它，继而产生价值，那么它同时也成为一场“灾难”。无序、无结构的数据犹如堆积如山的垃圾，给企业带来的是令人昨舌的高额成本。

在阿里巴巴集团内，我们面临的现实情况是：集团数据存储达到EB级别，部分单张表每天的数据记录数高达几千亿条，在2016年“双”购物狂欢节”的24小时中，支付金额达到了1207 亿元人民币，支付峰值高达12万笔/秒，下单峰值达17.5万笔/秒，媒体直播大屏处理的总数据量高达百亿且所有数据都需要做到实时、准确地对外披露……

这些给数据采集、存储和计算都带来了极大的挑战。

在阿里内部，数据工程师每天要面对百万级规模的离线数据处理工作。阿里大数据井喷式的爆发，加大了数据模型、数据研发、数据质量和运维保障工作的难度。

同时，日益丰富的业态，也带来了各种各样、纷繁复杂的数据需求。如何有效地满足来自员工、商家、合作伙伴等多样化的需求？提高他们对数据使用的满意度，是数据服务和数据产品需要面对的挑战。

如何建设高效的数据模型和体系，使数据易用，避免重复建设和数据不一致性，保证数据的规范性？如何提供高效易用的数据开发工具？如何做好数据质量保障:如何有效管理和控制日益增长的存储和计算消耗？如何保证数据服务的稳定，保证其性能？如何设计有效的数据产品高效赋能于外部客户和内部员…..这些都给大数据系统的建设提出了更多复杂的要求。

本文介绍的阿里巴巴大数据系统架构，就是为了满足不断变化的业务需求，同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。

如图1.1所示是阿里巴巴大数据系统体系架构图，从图中可以清晰地看到数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。

一、数据采集层

阿里巴巴是一家多业态的互联网公司，几亿规模的用户（如商家、消费者、商业组织等）在平台上从事商业、消费、娱乐等活动，每时每刻都在产生海量的数据。

数据采集作为阿里大数据系统体系的第一环尤为重要。因此，阿里巴巴建立了一套标准的数据采集体系方案，致力全面、高性能、规范地完成海量数据的采集，并将其传输到大数据平台。

阿里巴巴的日志采集体系方案包括两大体系: Aplus.JS 是Web端日志采集技术方案； UserTrack 是App端日志采集技术方案。

在采集技术基础之上，阿里巴巴用面向各个场景的埋点规范，来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的HS和Native日志数据打通等多种业务场景。

同时，还建立了一套高性能、高可靠性的数据传输体系，完成数据从生产业务端到大数据系统的传输。在传输方面，采用TimeTunnel (TT)，它既包括数据库的增量数据传输，也包括日志数据的传输。

TT作为数据传输服务的基础架构，既支持实时流式计算，也支持各种时间窗口的批量计算。另外，也通过数据同步工具（DataX和同步中心，其中同步中心是基于DataX易用性封装的）直连异构数据库（备库）来抽取各种时间窗口的数据。

二、数据计算层

数据只有被整合和计算，才能被用于洞察商业规律，挖掘潜在信息，从而实现大数据价值，达到赋能于商业和创造价值的目的。

从采集系统中收集到的大量原始数据，将进人数据计算层中被进一步整合与计算。

面对海量的数据和复杂的计算，阿里巴巴的数据计算层包括两大体系：数据存储及计算云平台（离线计算平台MaxCompute和实时计算平台StreamCompute）和数据整合及管理体系（内部称之为“OneData”）。

其中，MaxCompute 是阿里巴巴自主研发的离线大数据平台，其丰富的功能和强大的存储及计算能力使得阿里巴巴的大数据有了强大的存储和计算引擎: StreamCompute 是阿里巴巴自主研发的流式大数据平台，OneData是数据整合及管理的方法体系及工具。

阿里巴巴的大数据工程师在这一体系下，构建统一、规范、可共享的全域数据体系，避免数据的冗余和重复建设，规避数据烟囱和不一致性，充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。

借助这一统一化数据整合及管理的方法体系，我们构建了阿里巴巴的数据公共层，并可以帮助相似大数据项目快速落地实现。

从数据计算频率角度来看：阿里数据仓库可以分为离线数据仓库和实时数据仓库。

离线数据仓库主要是指：传统的数据仓库概念，数据计算频率主要以天（包含小时、周和月）为单位——如T-1，则每天凌晨处理上一天的数据。

但是，随着业务的发展特别是交易过程的缩短，用户对数据产出的实时性要求逐渐提高，所以阿里的实时数据仓库应运而生。“双11”实时数据直播大屏，就是实时数据仓库的种典型应用。

阿里数据仓库的数据加工链路也是遵循业界的分层理念，包括：操作数据层（Operational Data Store, ODS）、明细数据层（Data WarehouseDetAIl, DWD）、汇总数据层（Data Warehouse Summary, DWS）和应用数据层（Application Data Store, ADS）。通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化，并且对整个过程进行有效的元数据管理及数据质量处理。

在阿里大数据系统中，元数据模型整合及应用是一个重要的组成部分，主要包含：数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等。

元数据应用主要面向数据发现、数据管理等，如用于存储、计算和成本管理等。

三、数据服务层

当数据已被整合和计算好之后，需要提供给产品和应用进行数据消费。

为了有更好的性能和体验，阿里巴巴构建了自己的数据服务层，通过接口服务化方式对外提供数据服务。针对不同的需求，数据服务层的数据源架构在多种数据库之上，如：MySQL和HBase等。后续将逐渐迁移至阿里云2数据库ApsaraDB for RDS（简称”RDS ）和表格仔储（Table Store）等。

开放给集团内部各应用使用：现在，数据服务每天拥有几十亿的数据调用量，如何在性能、稳定性、扩展性等方面更好地服务于用户？如何满足应用各种复杂的数据服务需求？如何保证“双11” 媒体大屏数据服务接口的高可用……

随着业务的发展，需求越来越复杂，因此数据服务也在不断地前进。

数据服务可以使应用对底层数据存储透明，将海量数据方便高效的开放给集团内部各应用使用。现在，数据服务每天拥有几十亿的数据调用量，如何在性能、稳定性、扩展性等方面更好地服务于用户？如何满足应用各种复杂的数据服务需求？如何保证“双11”媒体大屏数据服务接口的高可用……随着业务的发展，需求越来越复杂，因此数据服务也在不断地前进。

数据服务层对外提供数据服务主要是通过统一的数据服务平台 (为方便阅读，简称为“OneService”)。

OneService 以数据仓库整合计算好的数据作为数据源，对外通过接口的方式提供数据服务，主要提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复杂数据查询服务)和实时数据推送服务三大特色数据服务。

四、数据应用层

数据已经准备好，需要通过合适的应用提供给用户，让数据最大化地发挥价值。

阿里对数据的应用表现在各个方面，如：搜索、推荐、广告、金融、信用、保险、文娱、物流等。商家，阿里内部的搜索、推荐、广告、金融等平台，阿里内部的运营和管理人员等，都是数据应用方:ISV、研究机构和社会组织等也可以利用阿里开放的数据能力和技术。

我们相信：数据作为新能源，为产业注人的变革是显而易见的。我们对数据新能源的探索也不仅仅停留在狭义的技术、服务和应用上。我们正在挖掘大数据更深层次的价值，为社会经济和民生基础建设等提供创新方法。

作者：Wilton（董超华），曾任职科大讯飞，现任富力环球商品贸易港大数据产品经理。公众号名称：改变世界的产品经理。

Tags：点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Create 2024百度AI开发者大会：李彦宏带来三大AI开发工具，让人人都是开发者

“未来，自然语言将成为新的通用编程语言，你只要会说话，就可以成为一名开发者，用自己的创造力改变世界。”4月16日，Create 2024百度AI开发者大会在深圳举办。百度创始人、董事长兼...【详细内容】

2024-04-17　　Search: 大数据点击:(2)　　评论:(0)　　加入收藏

“刘强东”当主播，扶得起京东直播吗？

定焦（dingjiaoone）原创作者 | 苏琦编辑 | 金玙璠“东哥呢，在哪里？”4月16日下午6点18分，刘强东的数字人形象“采销东哥”开启“直播首秀”，同时亮相京东家电家居、京东超市采销直...【详细内容】

2024-04-17　　Search: 大数据点击:(2)　　评论:(0)　　加入收藏

AI圈公开的秘密：天下模型一大抄

抄袭已经成为AI世界公开的秘密。据The Information周一的文章，许多初创公司的AI聊天机器人很可能是采用了OpenAI和其他公司的数据开发的。这些机器人在某些任务上可以媲美GPT...【详细内容】

2024-04-17　　Search: 大数据点击:(4)　　评论:(0)　　加入收藏

聚焦“一房二卖”等问题最高检发布典型案例

记者4月16日从最高人民检察院获悉，最高检近日印发了6件涉房地产纠纷民事检察监督典型案例，聚焦“一房二卖”、逾期办理产权证、违约金调整等高发监督事项。“一房二卖”等违法...【详细内容】

2024-04-17　　Search: 大数据点击:(2)　　评论:(0)　　加入收藏

今年买二手房最划算？70城二手房价格全都降了！

国家统计局4月16日公布的数据显示，2024年一季度，全国房地产开发投资同比下降9.5%。从销售来看，一季度，销售面积同比下降19.4%；新建商品房销售额下降27.6%。国家统计局城市司首席...【详细内容】

2024-04-17　　Search: 大数据点击:(1)　　评论:(0)　　加入收藏

周鸿祎力挺手机支架喊话余承东：手机在老婆手里你能专心开车吗

快科技4月17日消息，360周鸿祎近日再次提及了雷军和余承东引发的关于手机支架的讨论，强调了手机支架与驾驶安全之间的关联。周鸿祎认为，余承东在智界S7发布会上对手机支架的讽刺...【详细内容】

2024-04-17　　Search: 大数据点击:(1)　　评论:(0)　　加入收藏

Android 15 有望引入应用隔离功能，进一步提升系统安全性

IT之家 4 月 17 日消息，即将推出的 Android 15 系统可能引入一项全新功能：应用隔离。这一功能将更好地保护用户免受行为异常应用的侵害。Android 系统一直拥有强大的安全防护...【详细内容】

2024-04-17　　Search: 大数据点击:(4)　　评论:(0)　　加入收藏

全球首个AI程序员Devin造假？业内人士：质疑有理，但程序员已离不开AI

·号称全球首个AI人工智能软件师Devin日前被网络博主质疑造假、炒作。业内人士分析认为，该位博主质疑有理有据，Devin的“惊人效果”确实存在一些商业炒作的嫌疑。号称“...【详细内容】

2024-04-17　　Search: 大数据点击:(2)　　评论:(0)　　加入收藏

“刘强东”直播首秀，释放了什么信号？

文|新浪科技原祎鸣“3！2！1！上链接！”昨晚，刘强东AI数字人（以下简称“刘强东”）完成了首秀。虽然此前已有不少明星、头部主播的“分身”活跃在直播间中，技术制造的“替代者”已不算...【详细内容】

2024-04-17　　Search: 大数据点击:(2)　　评论:(0)　　加入收藏

A股突发！美联储传来大消息

全球市场动荡的根源其实还在于美元！最近，全球股债基本处于双杀状态，昨天A股亦是惨烈。在这种市场情绪背后，有人错误将之归咎于资本市场新规，其实根源在于美元，因为全球主要资产几...【详细内容】

2024-04-17　　Search: 大数据点击:(2)　　评论:(0)　　加入收藏

▌简易百科推荐

大数据杀熟何时告别“人人喊打却无可奈何”？

2月7日郑州飞往珠海的航班，不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历，引发社会广泛关注——用3个账号买同一航班同...【详细内容】

2024-01-30　　　　中国青年网　　Tags:大数据杀熟　点击:(34)　　评论:(0)　　加入收藏

简易百科：到底什么是大数据？

随着互联网的快速发展，大数据已经成为了当今社会最热门的话题之一。那么，到底什么是大数据呢？首先，我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】

2024-01-30　　　　简易百科　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

数据采集新篇章：AI与大模型的融合应用

开篇在AIGC（人工智能与通用计算）应用中，大型语言模型（LLM）占据着举足轻重的地位。这些模型，如GPT和BERT系列，通过处理和分析庞大的数据集，已经极大地推动了自然语言理解和生成的边界...【详细内容】

2024-01-17　　崔皓　　51CTO　　Tags:数据采集　点击:(55)　　评论:(0)　　加入收藏

挑战 Spark 和 Flink？大数据技术栈的突围和战争

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或...【详细内容】

2024-01-17　　InfoQ　　　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

分布式存储系统在大数据处理中扮演着怎样的角色？

如果存储节点本身可以定制，则通常会让其支持部分计算能力，以利用数据的亲和性，将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储，无法定制，则通常会将数据在计...【详细内容】

2023-12-19　　木鸟杂记　　微信公众号　　Tags:大数据　点击:(49)　　评论:(0)　　加入收藏

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大，尤其是当电动汽车成为汽车市场新的增长引擎。问题是：用户的数据平台准备...【详细内容】

2023-12-19　　　　51CTO　　Tags:大数据　点击:(43)　　评论:(0)　　加入收藏

利用生成对抗网络进行匿名化数据处理

在互联网时代，数据日益成为人们的生产资料。然而，在某些情况下，我们需要分享数据，但又需要保护个人隐私。这时，匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】

2023-12-18　　技巧达人小影　　　　Tags:数据处理　点击:(57)　　评论:(0)　　加入收藏

盘点那些常见的数据中心类型，你知道几个？

在数字化潮流的浪潮下，数据中心如同企业的神经系统，关系到业务的稳健运转。而在这个巨大的网络中，各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】

2023-12-07　　数据中心之家　　微信公众号　　Tags:数据中心　点击:(71)　　评论:(0)　　加入收藏

数据中心的七个关键特征

随着信息技术的不断演进，数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征，了解它们是如何影...【详细内容】

2023-12-06　　数据中心之家　　微信公众号　　Tags:数据　点击:(65)　　评论:(0)　　加入收藏

什么是数据解析？将数据转化为更好的决策

什么是数据解析？数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析（data analysis）和管理的流程、工具和技术，包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】

2023-12-06　　计算机世界　　　　Tags:数据解析　点击:(67)　　评论:(0)　　加入收藏

推荐资讯

Create 2024百度AI开	“刘强东”当主播，扶得
AI圈公开的秘密：天下模	聚焦“一房二卖”等问
今年买二手房最划算？70	周鸿祎力挺手机支架
Android 15 有望引入	全球首个AI程序员Devi