您当前的位置:首页 > 互联网百科 > 大数据

详解非结构化数据治理

时间:2022-08-24 10:40:23  来源:  作者:正正杂说

随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位。日常的业务过程中,需要处理的大量电子文档、图片、音频、视频等,都属于内容数据范畴。

例如,某银行的无人营业网点的远程业务办理中,要求用户上传身份证、签字页等扫描件,来核实用户身份。为其做后端支撑的影像管理平台,就属于典型的内容管理系统。基于该类平台,企业替代了业务处理中的纸质化传输,实现了海量非结构化内容数据的采集、加工、传递及服务的全生命周期的数据整合,大幅提升了生产效率。

内容管理系统,除了管理非结构化的内容数据(如图片、语音、视频等),还需要实现内容文件的元数据(如文件标签)的管理,才能为业务系统提供服务,如批次上传/下载、标签化、全文检索、生命周期管理、文件加工转存、断点续传等。

对内容数据进行收集、存储、管理和利用的整个过程,已经成为企业提高业务效率和提高盈利能力的有效方法。

01 非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 html、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。

非结构化数据的占比图

非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。

下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

结构化数据

非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等。

02 非结构化数据管理存在的问题

1、数据种类繁杂,形式多样

由于企业日常经营管理和业务管理的需要,建立了功能各异的应用系统或信息化管理平台,而这些管理系统和平台中生成了形式多样的非结构化文档数据,用以支撑企业的各类管理工作。

除此之外,还有大量与管理相关的非结构化文档数据散存在员工个人工作电脑中。这些数据种类繁杂,有的来源于外部,有的是经过内部整理编研形成的,有的则是完全产生于内部;涵盖了不同格式、不同存储载体、不同管理阶段的非结构化文档数据。

一般来说,企业拥有形式多样的存储设备,包括个人工作电脑以及信息化管理平台中管理的设备,且归属于不同的专业领域,业务活动中产生的非结构化文档数据除了常见的与办公活动相关的非结构化文档数据外,还包括了如照片、视频、设计图纸等多种形式。目前,这些不同种类的非结构化文档数据基本处于分散状态,很难进行有效的关联和整合。

2、信息孤岛造成数据割裂现象严重

由于信息系统建设具有阶段性特征,已有的信息系统建设之初仅以单个的业务需求为目标,彼此孤立,存在着比较严重的孤岛现象,系统之间缺少横向的数据接口,且数据标准不统一。即便是归档后进入档案系统之中的文档数据也难以实现有效的管理与集成。

例如,企业业务活动中存在着很多简称、全称以及英文名称并行使用的情况,很多数据标签对应同一个事物、同一个意思却使用不同的标签值。随着企业对数据资产价值需求的日益提升,这种现象的弊端亦凸显,打通企业非结构化文档数据的“任督二脉”,实现其资产价值势在必行。

3、存在过多的“账外”非结构化文档数据,缺少统一管控

由于企业的归档制度不够完善,集团制订的归档范围未将一些应归档但无法通过系统流转的文档纳入其中,部门相当一部分非结构化文档数据仍保存在个人电脑之中,没有统一的管理和控制,难以进行检索和共享利用,导致企业文档数据资产存在着流失的风险。

4、非结构化文档数据管理功能不全

如不支持有版本的非结构化文档数据管理,使用口径不统一,相同文件分散在不同的业务系统中,无版本控制导致无法确定系统中版本是否为最新。再如,业务系统缺少归档功能和接口,导致部门无法及时提交应归档保存的非结构化文档数据,导致非结构化文档数据资产容易丢失。同时,许多非结构化文档数据往往以“附件”的形式存在于系统中,难以检索与利用。

企业一些信息系统(如OA系统、ERP系统等)中文档多以表单(如办文单)的形式进行流转,需要办理的文档通常作为表单的附件,其中既有word或pdf等格式的文本文档,也有多种格式的图片、音视频文件等。这些非结构化文档往往只能借助其所依附的表单信息或者简单的文件标题等元数据加以检索和利用,检全率低,开发利用不足,难以开展深度的数据挖掘与分析。

5、相关制度体系不健全、管理缺位

企业现有的文档管理制度并不是建立在彻底的数据清理基础之上,因此,对于企业中生成哪些非结构化文档,哪些需要归档,如何进行归档?如何进行管理和利用等问题,现有制度中均缺少系统、细致、可操作的规定和描述。

而且,非结构化文档数据缺少必要的分类及元数据项。尤其是文档生命周期流程,即从文档生成、流转、办结到归档、保存、利用的全过程,并没有非常清晰和规范的管理流程和要求。

同时,企业业务活动往往涉及多个参与方,既有企业内部的部门,也有外单位,协同管理与归口管理的矛盾突出。这就对企业的非结构化文档数据管理提出了更高的要求,尤其是非结构化文档数据的准确性、及时性、一致性、安全性等方面。

此外,企业非结构化文档数据类型包括内部发文、外部发文、收文、签报、合同、业务文件附件及归档之后的档案。除了归档之后的档案数据是由数字档案管理系统进行集中统一管理之外,归档之前的非结构化文档数据往往处于分散管理的状态,存在着失存、失真、失控和失用等诸多问题,直接影响了后端档案数据的质量,影响了文档数据资产价值的发挥。

针对上述问题,要想真正实现企业文档数据资产的科学管理,非结构化文档数据管理势在必行。

03 非结构化数据治理体系规划

由于非结构化文档数据数量大、范围广、数据状态繁杂,涉及部门、人员和系统众多,正所谓牵一发而动全身。因此,要顺利开展非结构化文档数据的治理,必须充分做好前期的准备工作和规划。

在“摸清家底”—现状调查和现状评估的基础上,结合《信息技术服务 治理 第5部分:数据治理规范》提出的数据治理框架,从顶层设计、数据治理环境、数据治理和数据治理过程四大部分开展非结构化文档数据的管理。

1、顶层设计

企业的发展战略、管理模式和关键业务活动对于企业信息化及其数据治理的方向和目标起着决定性的导向作用,同时,企业各级部门及人员对于非结构化文档数据管理的理解与期望也将影响数据治理方案的设计。

因此,首先可以通过对企业关键业务活动的流程进行调查与分析,借助成熟度矩阵来评估企业非结构化文档数据在不同业务活动中的现状水平,并根据相关制度规范或行业标杆进行对标,找出差异点,作为项目开展的现实基础。

然后,在上述活动的基础上,制定企业非结构化文档数据项目的实施规划,包括定位、阶段、原则和目标,作为项目开展的基础与依据。

2、数据治理环境

任何管理活动的开展都离不开所处的环境,后者是前者赖以生存的生态系统。国内外宏观环境、行业环境和企业内部环境构成了环境要素的三个层面。

在这三个层面中需要纵向考虑政策、制度标准、趋势、文化、传统等要素对于项目的影响作用,要遵循法律法规、行业监管、内部管控,满足数据风险控制、数据安全和隐私的要求。

识别并评估市场发展、数据清理、竞争地位和技术变革等变化,规划并满足数据治理对各类资源的需求,包括人员、经费和基础设施。

尤其要关注企业文化、体制传统对管理活动实施的潜在影响,区别有利因素和阻碍因素。

3、数据治理框架

在前述两个步骤的基础上,围绕数据标准、数据质量、数据安全、元数据管理、内容管理和文档全生命周期管理等方面,搭建企业非结构化文档数据管理系统平台,在企业内部打通各业务系统之间的壁垒,在统一的平台之上规范非结构化文档数据的管理,同时融合元数据管理和内容管理。

文档类型关联着文档的元数据,不同的文档类型具备不同的文档元数据集合,也对应着不同的管理策略和机制。因此,需要统一制定符合管理和利用要求的非结构化文档数据元数据标准体系。

内容管理理念则作用于数据管理平台底层,以数据内容为中心统一存储、管理企业内部已建、在建、未系统化管理的非结构化文档数据,为上层业务管理、知识管理、智能搜索等业务应用的建设提供支撑。

4、数据治理过程

按照项目管理流程的一般要求,针对企业非结构化文档数据管理具体目标和内容,进行统筹规划、构建运行、监控评价、改进优化四个阶段的流程控制。

在此过程中,由于项目涉及企业各个层级、各个部门的众多人员、系统及工作流程,为了保证项目的顺利实施,需要在项目开展的同时进行变革管理(Change Management),通过调研、宣贯和培训等手段加强企业员工对项目的认知和接受程度。

04 非结构化数据治理解决方案

非结构化数据管理在企业实践中主要体现为 ECM 企业内容管理,其解决方案是通过企业内容管理系统来得到各项非结构化数据管理 工作的具体落地实施。

内容是指各类文档中包含的数据,其中以文本、图像、音频、视频等非结构化数据为主。ECM 企业内容管理是指以一种战略或方法, 来帮助企业获取、管理、存储、保护、利用和洞察企业组织流程相关的非结构化数据,如下图所示。

ECM 企业内容管理是一种专注于非结构化数据领域的软件类型, 其涵盖了企业网盘、文档管理、知识管理、文件安全交换、工程协同设计、文件安全外发、档案管理、影像文件管理、电子文档安全管理、文档云、ISO 质量文件体系管理、GMP 质量文件体系管理、非结构化数据管理平台、工程内容管理等应用软件,以及基于 AI 智能和 Graph 知识图谱技术的智能推荐、智能搜索、智能定密、智能安全分析等内容智能应用。

ECM 企业内容管理系统可以帮助企业内容管理战略落地,通过内容获取、管理、存储、保护、利用等方式挖掘和释放内容价值,最终促进企业数字化转型,提升企业运营效率,并获得企业商业洞察能力与长远竞争优势。

Gartner 于 2017 年修正了企业内容管理的定义:企业内容管理是一种服务,包括内容协作平台、内容服务平台和内容业务平台。具体表现为具有通用 API 接口和多储存库的平台型软件,服务于多分支组织机构和各种应用场景。

Gartner 在《预测 2019:内容服务的技术融合》中提出:越来越多的内容创新数字业务促进了对元数据解决方案需求的增长,使得通过使用人工智能来实现以前只能通过人类专业知识才能实现的自动化解决方案变得更加具有可行性。

进一步分析 Gartner 内容服务框架,其主要包括内容管理平台、内容服务应用和内容组件。其中内容管理平台是底层内容统一存储和统一管理的基础平台,提供各种 API 接口和 Connector 连接器等集成支撑;内容服务应用强调以内容为中心的业务应用;内容组件是一种类似转档、预览、编辑等细颗粒的内容服务组件,其能力可输送于内容服务平台和内容服务应用。

企业内容管理本质是为企业业务和数字化转型提供内容服务支撑,并具有内容服务的快速响应能力。基于内容服务平台 CSP 的内容服务应用 CSA 分为体系化 CSA 和场景化 CSA。其中体系化 CSA 覆盖垂直业务领域的内容服务,场景化 CSA 注重与第三方业务系统的集成和整合。

完整的内容服务框架如上图所示,其底座是内容服务平台,中层是基于低代码开发技术的内容业务平台,上层构建起内容协作、内容安全、内容管理、内容治理、内容合规、内容业务、内容智能等各种内容应用场景。

05 总结

数据就像石油,需要经过提纯加工才能使用,才能实现其资产价值。非结构化文档数据是“数据石油”的重要来源,企业需要遵循分级分类的管理思想,通过平台化、智能化和安全化的管理方法,才能构建出完整的非结构化文档数据管理体系,围绕能给业务带来价值的非结构化文档数据资产进行建设,从而推动非结构化文档数据向数据资产的转化。更多干活,可下滑看博主推荐。



Tags:数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Kyligence发布企业级AI解决方案!AI数智助理降低数据使用门槛
智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道,昨日大数据分析和指标平台供应商Kyligence(硅智信息)召开了数智论坛暨春季发布会,并分享和探讨Data+AI产品及解决方案在金...【详细内容】
2024-04-12  Search: 数据  点击:(0)  评论:(0)  加入收藏
解读3月份CPI和PPI数据
新华社北京4月11日电 题:国内物价总体保持温和上涨——解读3月份CPI和PPI数据新华社记者魏玉坤、吴剑锋国家统计局11日发布的数据显示,3月份,全国居民消费价格指数(CP...【详细内容】
2024-04-11  Search: 数据  点击:(1)  评论:(0)  加入收藏
聊聊Rust里面的数据类型
嘿,朋友们!今天我们来聊聊Rust里面的数据类型。你知道吗?Rust的数据类型可是很重要的哦,它们帮助我们定义变量和函数可以处理什么样的数据。基本数据类型首先,让我们来看看Rust提...【详细内容】
2024-04-11  Search: 数据  点击:(2)  评论:(0)  加入收藏
“霸王条款”“刷单炒信”“大数据杀熟”怎么破解?这部法规都明确了!
预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售……这些新领域的侵权你遇到过吗?消费者合法权益怎么保...【详细内容】
2024-04-11  Search: 数据  点击:(3)  评论:(0)  加入收藏
统计局解读3月份CPI和PPI数据:CPI季节性回落 PPI环比降幅收窄
2024年3月份CPI季节性回落 PPI环比降幅收窄——国家统计局城市司首席统计师董莉娟解读2024年3月份CPI和PPI数据国家统计局今天发布了2024年3月份全国CPI(居民消费...【详细内容】
2024-04-11  Search: 数据  点击:(2)  评论:(0)  加入收藏
美国3月CPI数据全线高于预期 6月首降希望基本破灭
财联社4月10日讯(编辑 牛占林)当地时间周三,美国劳工部公布的数据显示,因汽油和住房价格上涨,美国基础通胀率连续第三个月超预期,强化了美联储在降息方面的谨慎态度。有不少分析师...【详细内容】
2024-04-10  Search: 数据  点击:(2)  评论:(0)  加入收藏
暴雪公布国服规则:当服务器开启时,将保证账号数据被完整保留
新浪科技讯 4月10日上午消息,暴雪娱乐、微软游戏与网易今日共同宣布,暴雪娱乐旗下的游戏作品,将根据更新后的游戏发行协议自今年夏季开始陆续重返中国大陆市场。消息公布后,暴雪...【详细内容】
2024-04-10  Search: 数据  点击:(4)  评论:(0)  加入收藏
市场监管总局:禁止“大数据杀熟”规范“自动续费”
本报讯 (记者韩昱) 近日,《中华人民共和国消费者权益保护法实施条例》(以下简称《条例》)正式发布。4月9日,国新办举行国务院政策例行吹风会,市场监管总局副局长柳军介绍《条例》有...【详细内容】
2024-04-10  Search: 数据  点击:(1)  评论:(0)  加入收藏
尾盘:美股继续下滑 市场等待通胀数据
北京时间10日凌晨,美股周二尾盘继续下滑。在3月CPI与PPI等关键通胀数据公布前,市场情绪谨慎。摩根大通等大型银行将在本周公布财报,由此拉开美股一季报的帷幕。道指跌180.19点,...【详细内容】
2024-04-10  Search: 数据  点击:(6)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08  Search: 数据  点击:(9)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(33)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(52)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(41)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(66)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(63)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(62)  评论:(0)  加入收藏
站内最新
站内热门
站内头条