您当前的位置:首页 > 互联网百科 > 大数据

谈谈12个最常见的数据质量问题及其来源

时间:2023-02-02 14:42:58  来源:51CTO  作者:晓晓

据调查,56%的组织面临至少四种不同类型的数据质量问题,而71%的组织面临至少三种不同类型的问题。组织在设计数据质量框架和解决数据质量问题时花费了大量时间和资源。但要获得良好的结果,了解这些问题的确切性质并首先确定它们如何最终出现在系统中是很重要的。

什么是数据质量问题

数据质量问题是指数据集中存在无法容忍的缺陷,从而降低了该数据的可靠性和可信度。

跨不同来源存储的数据必然包含数据质量问题。由于多种原因,这些问题可能会被引入系统,例如人为错误、不正确的数据、过时的数据或组织中缺乏数据素养技能。由于数据为关键业务提供动力,因此此类问题可能会给公司带来一些严重的风险和损害。

在所有业务流程中利用高质量数据的需求非常明显。领导者正在投资招聘数据质量团队,因为他们想让人们负责获得和维持数据质量。并且设计了复杂的数据质量框架,采用先进的技术,确保数据质量管理快速准确。所有这些努力都是为了让清洁数据梦想成真。

但是,如果不首先了解是什么污染了数据以及它究竟来自何处,这一切都是不可能的。

公司面临的12大数据质量问题

问题#01:缺乏记录唯一性

一个拥有200-500名员工的普通组织使用大约123个SaaS应用程序。用于捕获、管理、存储和使用数据的应用程序数量庞大且种类繁多,是导致数据质量差的主要原因。在这种情况下最常见的问题是为同一实体存储多个记录。

例如,客户在购买过程中与品牌进行的所有互动都记录在数据库中的某个位置。这些记录可能来自网站、登陆页面表格、社交媒体广告、销售记录、账单记录、营销记录、购买点记录等领域。如果没有系统的方法来识别客户身份并将新信息与现有信息合并,最终可能会在整个数据集中出现重复信息。要修复重复,必须运行高级数据匹配算法来比较两个或多个记录并计算它们属于同一实体的可能性。

问题#02:缺乏关系约束

一个数据集通常引用多个数据。但是,当两个或多个不同的数据之间没有定义和强制执行任何关系时,最终可能会得到很多不正确和不完整的信息。

以这种情况为例:客户门户包含今年赢得的新业务以及从去年升级的现有客户的记录。除了基本客户信息外,肯定有一些客户字段仅适用于NewBusiness和一些仅适用于NewCustomer。可以使用相同的通用数据模型处理这两种情况,但它可能会导致许多数据质量问题,例如缺少必要的信息,以及客户记录中的模糊或不正确的信息。

要处理此类情况,应该始终创建特定的数据模型并加强它们之间的关系。通过在实体之间强制执行父/子(超类型/子类型)关系,可以使处理此信息的人员更好地捕获、更新和理解数据。需要将基本Customer字段与其子子类型(即NewBusiness和ExistingCustomer)分开。

问题#03:缺乏参照完整性

参照完整性意味着数据记录与其引用对应物是真实的。要了解由于缺乏参照完整性而产生的问题,我们考虑一家零售公司的例子。一家零售公司可能将他们的销售记录存储在Sales表中,每条记录都提到在进行销售时售出的产品。因此,可能希望在Sales表中找到销售ID和产品ID。但是,如果Sales记录引用Product表中不存在的ProductID,则很明显数据集缺乏引用完整性。

这些问题可能会导致团队创建不正确的报告、运送不正确的产品或将产品运送给不存在的客户等等。

问题#04:缺乏关系基数

关系基数是指两个实体之间可以拥有的最大关系数。通常,可以在数据对象之间创建不同类型的关系,这取决于公司允许如何进行业务交易。

参考以下示例以了解不同数据对象之间的基数,例如Customer、Purchase、Location和Product:

  • 一个客户一次只能有一个位置
  • 一个客户可以进行多次购买
  • 许多客户可以来自一个位置
  • 许多客户可以购买许多产品

如果基数约束没有明确定义,它可能会在数据集中引起许多数据质量问题。

问题#05:缺乏属性的唯一性和意义

我们经常发现与数据集属性或列相关的问题。很多时候数据模型没有明确定义,因此结果信息被认为是不可用的。发现的常见问题有:

  • 存在具有相同名称的多个列,其中包含一条记录的不同信息。
  • 存在具有不同名称的多个列,这在技术上意味着相同的事物,因此存储相同的信息。
  • 列标题不明确,会使数据输入操作者混淆要在列中存储的内容。
  • 有些列总是留空;要么是因为它们已被弃用,要么是没有获取此类信息的来源。
  • 有些列从未使用过,因此被不必要地存储。

所有这些场景都描述了数据集中的属性管理不善,并增加了数据质量问题的数量。

问题#06:缺乏验证约束

大多数数据质量问题都是由于缺乏验证约束造成的。验证约束确保数据值有效且合理,并根据定义的要求进行标准化和格式化。例如,缺少对CustomerName的验证约束检查会导致以下错误:

  • 名称中的额外空格(前导、尾随或中间的双空格),
  • 使用不适当的符号和字符,
  • 名称的长度太长,
  • 单字母中间名不大写或不以句号结尾,
  • 名字、中间名和姓氏的所有字母都大写,而不是仅将第一个字母大写。

此外,某些字段可能包含不正确的缩写和代码,或其他不属于属性域的值。如果这些约束未在数据模型中定义并在数据入口点上强制执行,最终会在数据集最关键和最基本的字段(例如客户姓名)中出现大量验证错误。

问题#07:缺乏准确的公式和计算

数据集中的许多字段是从其他字段派生或计算得出的。因此,每次在相关字段中输入或更新新数据时,都会设计、实施并自动执行公式。公式或计算中存在的任何错误都可能导致数据集的整个列中获得不正确的信息。这会使用于任何预期目的的字段无效。

根据其他字段计算的字段示例包括根据生日计算的年龄、根据购买的产品数量计算的适用折扣或任何其他百分比计算。

问题#08:跨来源缺乏一致性

与数据相关的最常见挑战之一是在所有节点或数据源中维护关于同一“事物”的一个定义。例如,如果一家公司使用CRM和一个单独的计费应用程序,则客户的记录将出现在这两个应用程序的数据库中。随着时间的推移,在所有数据库中保持一致的客户信息视图是一项艰巨的任务。

缺乏一致性可能会扰乱企业所有职能和运营的报告。一致性不仅与数据值的含义有关,还与它们的表示有关;例如,当值不适用或不可用时,必须使用一致的术语来表示所有来源的数据不可用。

问题#09:缺乏数据完整性

数据完整性是指数据集中存在必要的字段。数据集的完整性可以垂直(属性级别)或水平(记录级别)计算。通常,字段被标记为必填以确保数据集的完整性,因为并非所有字段都是必需的。

通常会在大量字段留空的数据集中发现此数据质量问题–大量记录。但空并不一定意味着不完整。数据集的完整性只能通过首先对数据模型的每个字段进行如下分类来准确衡量:

  • 字段是必填项吗?意思是,它不能留空;例如,客户的名称。
  • 该字段是可选的吗?意思是,它不一定需要填写;例如,客户的爱好字段。
  • 该字段在某些情况下不适用吗?意思是,根据记录的上下文,它变得无关紧要,应该留空;例如,未婚客户的配偶姓名。

问题#10:缺乏数据流通

数据老化得非常快——无论客户是否更换了他们的住址、电子邮件地址、联系电话等。此类更改可能会影响数据集的流通性,并导致产生数周或数月的旧数据,从而导致根据过时的信息做出关键决策。为确保数据集的流通性,可以设置提醒以更新数据,或对属性的年龄设置限制,确保所有值在给定时间内接受审查和更新。

问题#11:缺乏数据素养技能

尽管为保护数据及其跨数据集的质量做出了所有正确的努力,但组织中缺乏数据素养技能仍然会对数据造成很大的损害。员工经常存储错误的信息,因为他们不理解某些属性的含义。此外,他们不知道自己行为的后果,例如在某个系统或某个记录中更新数据会产生什么影响。

这种差异只能通过创建和设计数据素养计划和课程来消除,这些计划和课程向团队介绍组织数据并解释:

  • 它包含什么,
  • 每个数据属性的含义,
  • 其质量的可接受标准是什么,
  • 输入/操作数据的错误和正确方法是什么,
  • 使用什么数据来实现给定的结果。

问题#12:错误输入和其他人为错误

错误输入或拼写错误是最常见的数据质量错误来源之一。众所周知,人类在输入10,000个数据时至少会犯400个错误。这表明即使存在唯一标识符、验证检查和完整性约束,人为错误仍有可能产生并使数据质量下降。



Tags:数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Kyligence发布企业级AI解决方案!AI数智助理降低数据使用门槛
智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道,昨日大数据分析和指标平台供应商Kyligence(硅智信息)召开了数智论坛暨春季发布会,并分享和探讨Data+AI产品及解决方案在金...【详细内容】
2024-04-12  Search: 数据  点击:(7)  评论:(0)  加入收藏
解读3月份CPI和PPI数据
新华社北京4月11日电 题:国内物价总体保持温和上涨——解读3月份CPI和PPI数据新华社记者魏玉坤、吴剑锋国家统计局11日发布的数据显示,3月份,全国居民消费价格指数(CP...【详细内容】
2024-04-11  Search: 数据  点击:(8)  评论:(0)  加入收藏
聊聊Rust里面的数据类型
嘿,朋友们!今天我们来聊聊Rust里面的数据类型。你知道吗?Rust的数据类型可是很重要的哦,它们帮助我们定义变量和函数可以处理什么样的数据。基本数据类型首先,让我们来看看Rust提...【详细内容】
2024-04-11  Search: 数据  点击:(5)  评论:(0)  加入收藏
“霸王条款”“刷单炒信”“大数据杀熟”怎么破解?这部法规都明确了!
预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售……这些新领域的侵权你遇到过吗?消费者合法权益怎么保...【详细内容】
2024-04-11  Search: 数据  点击:(10)  评论:(0)  加入收藏
统计局解读3月份CPI和PPI数据:CPI季节性回落 PPI环比降幅收窄
2024年3月份CPI季节性回落 PPI环比降幅收窄——国家统计局城市司首席统计师董莉娟解读2024年3月份CPI和PPI数据国家统计局今天发布了2024年3月份全国CPI(居民消费...【详细内容】
2024-04-11  Search: 数据  点击:(10)  评论:(0)  加入收藏
美国3月CPI数据全线高于预期 6月首降希望基本破灭
财联社4月10日讯(编辑 牛占林)当地时间周三,美国劳工部公布的数据显示,因汽油和住房价格上涨,美国基础通胀率连续第三个月超预期,强化了美联储在降息方面的谨慎态度。有不少分析师...【详细内容】
2024-04-10  Search: 数据  点击:(5)  评论:(0)  加入收藏
暴雪公布国服规则:当服务器开启时,将保证账号数据被完整保留
新浪科技讯 4月10日上午消息,暴雪娱乐、微软游戏与网易今日共同宣布,暴雪娱乐旗下的游戏作品,将根据更新后的游戏发行协议自今年夏季开始陆续重返中国大陆市场。消息公布后,暴雪...【详细内容】
2024-04-10  Search: 数据  点击:(7)  评论:(0)  加入收藏
市场监管总局:禁止“大数据杀熟”规范“自动续费”
本报讯 (记者韩昱) 近日,《中华人民共和国消费者权益保护法实施条例》(以下简称《条例》)正式发布。4月9日,国新办举行国务院政策例行吹风会,市场监管总局副局长柳军介绍《条例》有...【详细内容】
2024-04-10  Search: 数据  点击:(4)  评论:(0)  加入收藏
尾盘:美股继续下滑 市场等待通胀数据
北京时间10日凌晨,美股周二尾盘继续下滑。在3月CPI与PPI等关键通胀数据公布前,市场情绪谨慎。摩根大通等大型银行将在本周公布财报,由此拉开美股一季报的帷幕。道指跌180.19点,...【详细内容】
2024-04-10  Search: 数据  点击:(7)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08  Search: 数据  点击:(14)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(53)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(49)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(43)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(71)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(65)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(67)  评论:(0)  加入收藏
站内最新
站内热门
站内头条