大数据项目中的QA需要迎接新的挑战

时间：2020-04-29 14:25:45 来源：作者：

根据IDC全球半年度大数据和分析支出指南的最新预测，到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元。在大数据和业务分析解决方案上投资增长最快的行业包括银行（复合年增长率13.3%）、医疗、保险、证券和投资服务、电信，每个行业复合年增长率都是12.8%。由此可见，大数据类项目在未来的地位将会越发重要，而作为QA，在大数据项目急速扩张的大背景下，也将迎来新的机遇和挑战。

一、大数据项目的数据特点

大数据项目与传统交付项目的不同之处在于其关注的重点为数据、算法而不再是用户操作逻辑、页面展示等，整个项目将围绕数据质量和算法结果耗费大量精力。

项目涉及到大量各种格式的数据，如图像、平面文件、音频等，其结构和格式不尽相同。与传统的交付类项目相比，大数据项目的数据量可能会大得多。其数据特点是3 V – Volume，Velocity and Variety：

数量：收集的数据量很大，来自不同的来源来自不同的来源，如传感器，上传文件，商业交易等。
速度：数据以高速创建，必须快速处理。如RFID标签，智能电表等仪器可以以前所未有的速度自动生成数据。
多样性：数据有各种格式。它可以是音频，视频，数字，文本，电子邮件，卫星图像，大气传感器等。

大数据项目中的测试通常与数据测试，算法测试、功能测试以及性能测试有关。明确大数据项目中测试关键点将有助于项目的成功交付。

二、数据质量至关重要

大数据项目中数据流转是至关重要的一部分，从不同的数据源系统流入至运算操作系统再流出至数据展示系统的过程中都要保障数据质量。

数据质量包括数据的完整性、准确性、一致性、及时性。

完整性：指数据记录是否完整，是否存在缺失的情况。数据缺失包括整条记录的缺失、某条记录中字段信息的缺失。数据是否完整直接影响到数据统计结果，是数据质量的基础。
准确性：指数据记录的信息和数据是否准确，是否存在异常或者错误信息。
一致性：一般体现在跨度很大的数据仓库体系中，当体系中存在很多业务数据仓库分支时，对于同一份数据需要保持一致。比如用户ID，从在业务库加工到数据仓库，再到各个消费节点，必须都是同一种类型，长度也需要保持一致。
及时性：对于一些实时系统，甚至一些业务系统可以及时的收集数据、展示数据，给业务决策提供快速的支持和反馈，例如销售日报。
除了上述四点之外，通常还会根据项目的实际情况进行其他处理以保障数据质量，例如数据去重、无效数据过滤等。

数据在数据系统中的流转

在多数数据系统中数据以下图的模式进行流转，关注数据流转过程中数据的质量也是QA所面临的一项重要挑战：

1.数据从数据源流入到我们所构建的大数据系统

数据从不同的数据源流入大数据系统，一般数据源包括：其他数据系统、CSV或Excel等文件、传感器、扫描仪、日志等等。在从数据源流入大数据系统前需进行数据清理，以确保得到正确的、需要的数据。在数据量极大的情况下，可能会引入Hadoop（或类似的框架）。无论引入何种框架，都需数据从数据源中以高质量的形式导入至我们所构建的大数据系统中。为验证此步的数据流转，需要掌握SQL、Hadoop命令等，这就对QA提出了新的要求。

除此之外，在大数据项目的测试中，由于数据量非常庞大，若非特意进行性能测试，通常只需选取有代表性的少量测试数据集进行测试，以避免每次测试流程都耗费过多时间。所谓有代表性，即这些数据能覆盖全部的主要计算逻辑和大部分的边界场景。

2.在大数据系统中进行运算

数据进入系统后，会对数据进一步处理，在处理数据中可能会用到Hive，Python等。作为QA还需掌握以上技能，以便开发脚本来提取和处理数据来进行测试。

大数据系统中对数据的处理会包括逻辑处理和算法挖掘两种。前者更偏向于业务处理，后者更偏向于数据挖掘或机器学习的算法。例如，假设某系统是对未来三天的天气进行预测，其用于进行模型训练的数据包括天气、温度、日期、城市等，在开发系统时，开发人员首先将全部数据按照城市进行分组，然后将不同城市的数据输入到机器学习算法中进行预测。在该系统中“按城市进行分组”即为逻辑处理，“用机器学习算法进行预测”即为算法挖掘。这是一个简化的例子，通常应用程序会更加复杂，在该系统中对于逻辑处理部分可按照传统测试方法进行测试，对于算法挖掘部分则需重点关注输入至算法的数据的正确性以及输出结果的各项指标表现。

然后将处理后的数据存储在数据仓库中。在将数据存储在数据仓库中之后，可再次对其进行验证，以确保它与经过数据系统运算后生成的数据一致。

3.数据结果展示

通常最后一步会将数据暴露给业务人员或下游使用者，通过可视化或者数据接口的形式进行输出，以便产生业务价值。可能会使用商业智能工具，或者由业务人员使用R、Python等语言进行数据分析，因此有必要对该输出结果进行验证。若通过Web页面将数据以可视化图表的形式展露给客户，就需要对Web页面进行测试，若通过Report的形式报告给客户，就必须对生成的Report进行测试。此步除了验证数据的准确性、完整性外，可能还需要验证数据的及时性。比如直播墙需要对数据统计结果进行实时展示，业务报表可能需要当天或当周进行展示，需满足系统有不同的时限要求。

以实际项目为例进行简单介绍

根据项目的不同，以上的架构可能会有细节上的不同，下面以实际项目为例进行简单的介绍。

例如，在某智慧物流项目中，需对物流订单进行路径规划，将全部的物流订单（包括接货订单和送货订单）分配给各个货车司机，根据订单的接货地址和送货地址以及订单的时间要求对每个货车司机的订单进行路径规划。优化的目标是在限制时间内从发货人手中收取全部货物并将货物全部送收货人手里，且尽可能使路径总和最小化。其系统结构按照数据流转可以大致按以下方式划分：

根据数据在系统中的流转从左至右来看，测试注意点包括以下几方面：

上传文件校验，确保不会有异常数据流入后续的存储及运算系统中。
数据从数据源流入数据库时的完整性、准确性，确保其从CSV或Excel文件中读取的数据以正确的格式完整的进入到了数据系统的存储空间。
数据库中数据按照业务逻辑进行处理后被正确的输入到算法中。
算法逻辑。
用户可见的数据信息是准确有序的按照算法运算结果呈现给终端用户的。
异常情况处理，如数据传输过程中突然中断、输入给算法的数据过大或过小等情况。

总而言之，数据在系统的各个部分进行流转，需根据系统的架构、业务的逻辑等，从准确性、完整性、一致性、及时性几个方面保障数据的质量。

三、验证算法的结果

对于算法结果的验证是数据类项目中遇到另一个挑战，在这里我按照以往的项目经验总结了“三、二、一”：三个已践行，二个待实现，一个贯穿始终。

三个已践行

1.确保每步逻辑正确

在敏捷实践中对于需求的拆分和追踪是以Story的形式进行的，数据项目中尤其要确认好每一个Story的输入数据样式、输出数据样式来确保在开发过程中各个Story之间可以顺利衔接，在辅以Kick Off和Desk Check等敏捷实践，确保Dev、BA、QA对于需求的理解一致。

算法部分一般是调用外部的包直接实现的，一般假设这部分的实现逻辑没有问题，故重点需关注输入至算法的数据。

2.向用户或者业务人员展示结果

若在进行探索研究阶段就已经输出完整的数据处理逻辑和算法处理过程，且其结果得到验证，项目内容主要是对该研究结果进行工程实现，则需保障工程实现过程中的质量。该情况下，保障质量的方法是把工程实现系统和在探索研究阶段输出的结果进行对比，这也是在帮助客户进行工程实现时较为常用的一种方法。

算法有固定的输出结果，比如数据分析类项目中需要统计某类订单的数量，可以采用构建测试数据和预期输出数据，判断系统输出结果是否与预期相同的方法。

没有研究阶段的输出结果，也没有固定的输出，比如智慧物流系统里路径规划，我们采取的方案是将结果展示给货司机，让他们去实际按照路线送货，由真正的用户来判断是否是其想要的结果。类似于这种结果无法由开发团队直接判断的，需尽早且持续的将结果展示给用户或相关业务人员，请其对算法结果进行反馈。

3.不同数据集多次验证。

设计不同的数据集进行验证，验证算法在不同数据下的表现，探究算法的边界。比如上文中提到的智慧物流项目可能适用于上海的场景，不一定适用于北京的场景，因为该算法用于训练的历史数据多为上海地区数据。

两个待实现

1.以最终目标为依据

比如智慧物流，最终的目标是降低成本、提高收入。所以算法本身的指标，比如灵敏度，召回率都不是最终的计算，甚至路程都不是最终的目标。可以设定一个f（x）=总收入-总成本，目标为总成本最低。再比如滴滴的推荐算法，加了一个滴滴司机提供的反馈信息，这个信息只包括一条“你会不会把这个App推荐给朋友”。该推荐算法的目标为提高司机的满意度以推广软件，即为司机将算法推荐给朋友的数量。

2.线上迭代验证

模型的验证指标，比如召回率，灵敏度等，作为一个指标放到线上去做验证。对于上线的模型选取部分测试数据对其进行迭代验证，在不满足指标的情况下发出告警。该情况可能是由于随着时间的推移，用于训练的历史数据已经不再适应新的情形导致，需要算法工程师重新对其进行评估。

一个贯穿始终的注意点

真实数据对于系统的验证非常重要，人为构造的数据无论是在分布形态还是异常场景覆盖上都比不上真实的生产数据。测试数据分布不同于真实数据时，可能会导致算法在测试阶段表现良好，而在进入到生产系统后表现欠佳。在测试数据构造困难的情况下，由于测试数据对异常场景的覆盖不足，在进入生产系统引入真实数据后，甚至有可能会导致算法实效或系统崩溃等严重后果。

而实际项目中，获取可用于测试的真实数据，往往也是一大挑战。通常在将真实数据引入测试环节前还需进行至关重要的一步：数据脱敏。由于真实数据中包含了大量的机密信息，故在将真实数据用于测试前通常会将如身份证号、电话、价钱等敏感信息进行脱敏处理。

文/ThoughtWorks 王薇

目前在网上能找到的跟大数据项目测试相关的文章有限，便结合经历过的项目进行了以上的总结。若有同样在大数据项目中担任QA角色的同学，欢迎一起来交流讨论。

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(26)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(45)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　linyb极客之路　　　　Tags:数据脱敏　点击:(2)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(26)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(40)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游