过去十年,农业银行信息化建设积累了海量的数据。为了盘活这些数据资源,充分发挥数据价值,在大数据平台和AI建设过程中,农业银行采取“统筹规划、顶层设计、分步实施”的策略,不断发展和完善数据治理内容,摸索出基于大数据+AI体系下的“一保八维”的数据治理框架,打造了全流程智能化的一站式数据治理平台,逐步解决了数据的全面性、准确性、完整性、一致性、及时性等问题,提升了数据资产管理水平和数据质量,提高了数据服务能力,为全行数据管理、产品创新、数字化转型等提供数据支撑。
提出“一保八维”的数据治理框架,全面促进高质量发展
数据治理是一个系统工程,通常采用自顶向下指导,自下而上推进。在农业银行大数据+AI建设过程中,逐渐摸索建立了涵盖研发、数据、业务、安全的企业级的“一保八维”的数据治理框架,为高效的数据质量、稳定的数据服务奠定基础。“一保”是指数据质量保障体系,包括建立高效的数据治理组织架构,为数据治理各项活动提供强有力的组织保障;建立全面严谨的制度章程,为数据治理快速有序推进提供制度依据;建立全流程、全生命周期的闭环数据治理流程,为全面进行数据治理提供标准化、规范化的闭环流程机制;打造数据治理平台,为数据治理提供自动、自助、智能化的平台支撑。“八维”是指企业级的数据模型管理、数据标准管理、元数据管理、主数据管理、数据质量管理、数据服务管理、数据安全管理和数据生命周期管理八大核心领域,实现对数据治理保障机制的支撑与落地。
采用数据质量闭环治理机制,有效提升数据质量
数据质量是指通过技术、业务手段使数据符合业务规则、数据标准等要求,保障数据的完整性、准确性、及时性和一致性的活动。农业银行在大数据平台数据治理过程中,通过建立数据质量闭环治理机制,以组织架构为保障,以流程制度为依据,落实责任主体,同规同源,稳步推进,有效提升数据质量。通过建立数据质量闭环治理机制,主要解决“是不是问题”“谁的问题”“谁来整改”“如何良性循环”等一系列痛点,形成健全的数据管控长效机制,推动数据问题标本兼治,全面提升数据的全面性、完整性、准确性、及时性、一致性,降低数据管理成本,提升数据质量,减少因数据不可靠导致的决策偏差和损失(见图1)。
图1 数据质量闭环治理机制
建立智能化数据治理平台,提供全流程一站式数据服务
借助大数据和AI技术,以元数据管理为基础,提升数据质量为目标,搭建智能化数据治理平台(见图2),有效提升了数据服务质量和能力,支撑了产品创新、服务创新、数字化转型等。
图2 数据治理平台总体架构
数据治理平台构建了9大功能模块,包括数据标准、元数据管理、数据质量、数据处理、主数据管理、数据资产管理、数据交换、数据生命周期管理、数据安全模块。解决了8大问题,包括业务系统缺少统一标准、数据质量差、变更对应的影响分析困难、业务系统间资产共享差、数据安全无保障、数据管理体系不完善、数据价值利用低、数据管理成本高且效率低等问题。凸显8个能力,包括海量存储和高效的数据处理能力、全面的数据覆盖能力、自动化的元数据采集能力、立体的数据管理能力、全流程一站式数据治理能力、自助式服务能力、智能化数据服务能力、数据安全管理能力。
数据治理平台依托农业银行特色的MPP数据库加Hadoop混搭架构的大数据平台,提供海量数据的存储和大规模并行计算能力,支持PB级以上的数据存储和海量数据加工处理,可在8小时内完成每天近100TB数据的加工,实现海量存储和高效的数据处理。采取“三范式融合维度建模”的方式,构建了1万多个模型,存储了逾数十PB的数据,实现全面的数据覆盖。通过采用可插拔的适配器方式实现各类数据源、多种元数据的自动采集,快速精确的纳入元数据管理,极大减少人工工作量,提升元数据的准确率。通过元数据管理系统为用户提供“横纵交错,静动结合”的元数据管理,实现立体的数据管理能力。数据治理平台9大功能模块可互相调用,打通数据治理各个环节,提供全流程一站式数据治理服务。从数据查询服务、BI业务报表应用、AI数据挖掘三类数据消费服务出发,让业务人员能够从多维数据中对数据特征、数据指标等内容进行提炼,从而达到业务自助式服务的目标。数据治理平台在数据治理的多个环节,充分利用AI技术,为数据治理提供智能化数据服务。依托保密安全和信息安全体系框架和管理要求,基于数据分类分级安全管理策略矩阵,通过基于统一安全认证平台接入、堡垒机、转储控制(TSM)、涉数操作行为审计在技术层面实现了事前、事中、事后安全控制,实现数据安全模块的研发落地,为数据服务体系奠定坚实的数据安全基础。
借力AI技术,实现数据治理向“智能化”转变
随着AI技术的兴起,数据治理技术和AI技术开始融合,使得数据治理开始向“智能化”转变。一是在数据质量检查时,针对少量核心检查规则,从大数据中选取训练数据样本,利用机器学习算法进行深度分析,提取公共特征和模型,可以用来定位数据质量原因,进行数据质量问题的预测,并进一步形成知识库,进而增强数据质量管理能力。二是在数据模型管理过程中,通过机器学习技术分析数据库中数据实体的引用热度,通过聚类算法自动识别数据模型间的内在关系,同时也可对数据模型质量的检测和评估。三是在数据传输监控中,利用机器学习技术对数据历史到位情况分析,预测数据的到位时间,为保证数据处理的及时性和应对数据晚到的影响提供支撑。四是在数据问题发现方面,可以应用NLP技术对住址、单位名称等数据进行词性、句式、语义分析,进行用户隐私数据发现和数据一致性问题发现等方面的探索,为避免隐私数据泄漏,治理数据不一致等问题提供治理线索,增强数据质量和数据安全管理能力。
通过业技联动,推进数据治理工作,提升数据质量
大数据平台下数据治理工作具有长期性、艰巨性和复杂性。农业银行数据治理工作遵循“顶层设计、问题驱动、急用先行、标本兼治、业技联动”的原则,采取“摸家底、建机制、搭平台”三步走方针,将数据治理分为常规数据治理和专项数据治理。在常规数据治理方面,优先通过技术手段解决数据问题;保证业技联动,一是联合信息管理部进行客户、合约、内部核算等业务主题的数据监测,提交质量监测报告;二是参与个金部、公司部等业务部门的检查规则制订;三是完成客户信息治理等多项数据管控的工作,初步形成问题发现、收集、分析、报告、整改、验证的协作机制,有效避免了数据“边治理、边污染”。在专题数据治理方面,根据业务部门的需求,开展个人客户、对公客户、个人账户、AI账户、非居民客户、信贷业务、交易对手、微捷贷等专题治理,形成了近千条质量监测规则,有效提升了数据质量。
总结与展望
基于大数据和AI体系的数据治理是银行业实施大数据+AI战略的重要基础和保障,它对数据价值挖掘、产品创新、服务创新、数字化转型等工作提供重要支撑。农业银行在大数据+AI建设过程中,采取“摸家底、建机制、搭平台”三步走方针,探索出“一保八维”的数据治理框架,搭建了基于大数据和AI技术的智能化的数据治理平台,为数据治理工作提供坚实的技术支撑,有力提升了数据资产质量、数据管理能力以及系统研发运维效率,形成了数据管控的长效机制,满足了大数据背景下商业银行精细化管理和产品创新、服务创新。未来,农业银行将更加深入研究和应用大数据和AI等金融科技技术,加快科技转换能力,利用科技赋能传统数据治理,加快农业银行的数字化转型。