Dataphin(智能数据构建与管理)是阿里巴巴数据中台团队研发的数据中台产品,它用于阿里集团(含蚂蚁科技)内部的数据中台建设,即它是阿里巴巴集团自己使用的数据中台产品。。
Dataphin遵循阿里巴巴集团多年实战沉淀的大数据建设体系(OneData、OneID、OneService),集产品、技术、方法论于一体,一站式为用户提供集数据引入、规范定义、数据建模研发、数据资产管理、数据服务等的全链路智能数据构建及管理服务。助力政府机构和企业打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系,以驱动创新。主要功能模块包括:
- 平台管理平台管理是Dataphin的基础功能,主要包含全局化功能设置、首页引导。该功能模块帮助用户系统地了解和熟悉整个产品、快速开始工作,并进行必要的系统管理与控制,保障各模块正常运转。
- 全局设计基于业务全局,从顶层自下规划设计业务数据总线,包括:划分命名空间、定义主题域及相关名词、划分管理单元(即项目)、定义数据源及计算引擎源。
- 数据引入数据引入是基于全局设计定义的项目空间与物理数据源,将各业务系统、各类型的数据抽取加载至目标数据库。这个过程可以实现数据同步与集成,完成各业务数据集成后的基础数据中心建设,为后续进一步加工数据奠定基础。
- 规范定义基于全局设计定义的业务总线、数据引入构建的基础数据中心,根据业务数据需求,结构化地定义数据元素(例如维度、统计指标),保障数据无二义性地标准化、规范化生产。
- 建模研发基于规范定义的数据元素,设计与构建可视化的数据模型。数据模型提交发布后,系统智能自动化地生成代码与调度任务,完成公共数据中心的全托管建设。
- 编码研发基于通用的代码编辑页面,灵活地进行个性化的数据编码研发,完成任务发布。
- 资源及函数管理
- 支持管理各种资源包(例如Jar、文本文件),以满足部分数据处理需求。
- 支持查找与使用内置的系统函数。
- 支持用户自定义函数,以满足数据研发的特殊加工需求。
- 调度运维对建模研发、编码研发生成的代码任务进行基于策略的调度与运维,确保所有任务正常有序地运行。调度运维操作包括:部署数据生产任务、查看任务运行情况、管理及维护任务之间的依赖关系。
- 元数据中心支持采集、解析和管理基础数据中心、公共数据中心、萃取数据中心的元数据。
- 资产分析
- 在元数据中心基础上,深度分析元数据,实现数据资产化管理。
- 为用户可视化地呈现资产分布、元数据详情等,方便用户快速查找、深度了解数据资产。
- 即席查询支持用户通过自定义SQL等方式,查询数据资产中的数据。同时,通过查询分析引擎,快速获取物理表、逻辑表(即数据模型,或逻辑模型)的数据查询结果。
为什么选择Dataphin?
Dataphin在阿里巴巴内部管理EB级别数据、数以千万级别的表,本身产品能力已经在阿里巴巴海量数据的环境中得到验证。
Dataphin致力于屏蔽不同计算与存储环境差异,帮助用户快速引入数据、标准规范化构建数据。用户可以通过建模化方式自动开发数据、萃取以实体对象为中心的标签数据体系,沉淀业务数据知识与数据资产、治理数据问题。同时,Dataphin还支持数据表查询、智能语音查询等多种类型的数据服务。
选择Dataphin,用户可以轻松构建具有以下优势的数据体系:
- 数据规范统一:采用维度事实建模理论,对维度、维度属性、业务过程、指标字段等进行严格的标准化、规范化定义,保障数据质量,避免数据指标定义的二义性。
- 高效且自动化的编码:基于函数化理念,对通用数据计算逻辑进行组件化定义,并可自由组建统计指标,从而实现自助化建模研发,系统自动生成代码执行数据生产。
- 智能计算优化:支持从业务视角进行逻辑建模。逻辑模型发布后,系统自动化进行物理建模、编码,从而降低对开发人员的技术能力依赖。
- 一站式研发体验:数据引入、建模、研发、运维、数据查找及探查等过程一气呵成,研发链路统一且高效。
- 系统化构建数据目录:基于规范化建模、高效自动化的元数据抽取,以标准的技术框架系统地构建规范的业务化数据目录,形成数据资产地图,方便业务查找及应用。
- 高效的数据检索:基于元数据及业务数据构建数据图谱,实现快速、智能检索数据表及数据。
- 可视化的数据资产:系统化构建业务数据资产大图,从数据视角还原业务系统、提取业务数据,快速感知业务关键环节及数据。
- 数据使用简单可依赖:通过主题式数据查询服务,可以快速查询和访问研发构建的数据逻辑表,简化约80%的查询代码。
- 提升效率:提供全链路、一站式、智能化的数据构建与管理工具,降低数据建设门槛。不同背景的开发人员可以自助ETL,快速满足业务需求。通过OneData、OneEntity、OneService思想与方法论,可以完成模型和指标的抽象与自助定义、代码自动化生产、主题数据自动聚合并输出服务。
- 降低成本:以元数据为基础、算法智能为驱动,实现物理和逻辑分层的智能自动化生产。同时,分析与优化数据资产全链路,优化计算及存储资源分配,从而降低数据生产及消费成本。