您当前的位置:首页 > 互联网百科 > 大数据

数据不够,是模型表现不佳的“借口”,还是真正的问题所在?

时间:2020-06-22 14:03:41  来源:  作者:

“如果我能获得更多的训练数据,我的模型精度就会大大提高”,“我们应该通过API获得更多的数据”,“源数据质量太差,我们无法使用”。

这是很多工程师在模型表现不力时给出的一些解释或者理由。

数据作为机器学习或分析项目的基础,虽然现在拥有的可用数据比之前要多,但是数据不足或者数据类型不匹配等问题并不少见。

然而如何知道这些问题是真正的问题点还是仅仅是借口呢?换句话说,如何发现数据是否是项目的限制因素?

那就需要,查找数据瓶颈!

一般来说,主要可以从以下三个方面来调整数据:

  • 深度:增加数据点的数量

  • 广度:增加数据源的多样性

  • 高质量:整合混乱的数据!

数据不够,是模型表现不佳的“借口”,还是真正的问题所在?

 

一:从数据深度上下功夫

这种方式不需要改变数据结构,而是新增数据点。

你不能一直控制数据点(例如:你不能轻易地新增用户),但是至少可以在某些方面一直控制这个点。

在下面这几个不同的情况下,增加数据量是很有用的。

1、A/B测试或实验

如果你正在运行一个实验,需要足够的数据点来实现结果统计的意义,而需要多少个数据点,还受到其他因素的影响,例如:误差范围、置信区间和分布的方差。对于要进行的每一个实验,都有一个最小数据量阈值:如果已经达到这个阈值,则可以继续进行下一步,因为再增加数据点已经起不到任何作用了。否则,数据将会成为实验的瓶颈。下面这篇博文对此进行了很好的概述:

https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee

2、机器学习中的预测精度

如果你正在运行的是一个预测模型,预测精度会随着数据量的增加而提高,但是这个精度会达到某个“饱和”点,如何去发现是否已经达到这样的一个点呢?你可以用不同数量的训练数据点来重新训练模型,然后根据数据量绘制预测精度。如果曲线没有变平,则模型可能从额外增加的数据进一步受益。

数据不够,是模型表现不佳的“借口”,还是真正的问题所在?

来源:Kim 和 Park 在 researchgate 上发表的文章

https://www.researchgate.net/publication/228784109_A_Survey_of_Applications_of_Artificial_Intelligence_Algorithms_in_Eco-environmental_Modelling)

3、赋能深度学习

虽然传统的机器学习模型可以在较小的数据量下运行,但是模型越复杂,它需要的数据量就越多,到最后,如果没有大量的数据作为支撑,深度学习模型就无法运行。对机器学习模型来说,大数据是一种需求,而不是提高性能的好方法。

4、分析和思路

即使你没有将数据用于预测,但是想要丰富报告或者进行一次分析来证实你的决策,数据量仍然有可能会成为预测的瓶颈。不过如果你的数据具备许多异构性,并且你还能够从不同的粒度层级上对其进行分析,增加数据量便是正确的做法。例如你有一个庞大的销售队伍,销售的产品范围非常宽泛,每一个销售人员可能只销售产品中的一个子集。如果你想比较他们在销售某一特定产品方面的能力,可能就无从比较了。

 

二:从数据广度上下功夫

数据的多样性是关键,但就经验而言,这方面的数据也常常被高估。

我之前有一份工作:便是在一家初创公司用机器学习做房价预测。我们的战略优势是拥有各种各样的数据,因此可以整合所有可能的数据资源,以帮助对房地产进行预测。

而提高模型的预测能力的关键,就在于确定要获取哪些数据资源。

如何评估获取新数据的成本与收益?

数据不够,是模型表现不佳的“借口”,还是真正的问题所在?

我们需要从两个关键点对新数据的收益进行评估:新数据与我们试图预测的目标变量的相关性是什么(希望尽可能高),新数据与已有数据的相关性是什么(希望尽可能少)。但是,这并不容易定量分析,但是一些定性的判断可以帮助我们筛选出最合适我们的新数据。

评估新数据的成本可以看作是拥有数据的总成本。有时,购买数据或支付API会产生实际成本,但这只是其中的一部分。往往如下这些因素才是最需要考虑的:

  • 一次性获取 vs 反复获取

  • 数据转换和存储的复杂性

  • 数据质量和数据清理的需求

  • 数据处理和解析

 

三:提高数据质量

哈佛大学教授Xiao-Li Meng曾做过一个非常鼓舞人心的演讲,他提到:“数据质量远比数据数量重要”。

这个演讲的美妙之处在于,他能够用数学方法量化这句话,观察数据质量或数量的统计度量。

观看演讲地址:
https://www.youtube.com/watch?v=8YLdIDOMEZs

我的商业经验也反映了这一点:通常情况下,公司往往在获取或合并更多的数据前,并没有先分析当前现有数据是否已足够。

数据质量经常是一个问题,而且还是一个大问题。这个问题可能是由于手工输入错误、原始数据的不准确性、聚合或处理层中的问题、某段时间内数据丢失等原因造成的。

提高数据质量,是一个需要花费大量时间并且很无趣的工作,但是它也可以给我们带来最有益的的结果。

 

四:总结

如果模型表现不佳确实存在数据瓶颈,那就试着找出瓶颈在哪里。总而言之,可以从这三个方面入手:

第一,数据量的问题往往可以通过简单的统计显著性或准确性曲线来检验识别。如果这不是问题所在,那就继续进行下一步。

第二,根据我的经验,我们所拥有的数据的多样性往往被夸大,这并不是因为新数据没有用处,而是因为新数据资源可能已经包含了以某种方式捕获的信息,特别是在已经有了一个相对丰富的数据集的情况下。

第三,数据质量是关键,关注更小、更干净的数据集比关注更大、更混乱的数据集要好得多。

 



Tags:数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  Tags: 数据  点击:(2)  评论:(0)  加入收藏
在日常生活或工作中,我们或多或少用过一些非常“冷门”的数码电脑周边配线,比如:USB对拷线、USB延长线、网络延长线……这些配线虽然看似不起眼,但关键时刻却能解决...【详细内容】
2021-12-28  Tags: 数据  点击:(1)  评论:(0)  加入收藏
IT之家 12 月 27 日消息,此前华为鸿蒙 HarmonyOS 2 升级后,若使用了山寨充电器,手机会智能识别并提示:““充电缓慢 此充电器未通过快充协议检测,无法进行快速充电”。有华为 Mat...【详细内容】
2021-12-28  Tags: 数据  点击:(2)  评论:(0)  加入收藏
非法购买公民信息、开发人脸认证规避技术……今年年初,广东省公安厅网安部门侦破全国首例破解“青少年防沉迷系统”的新型网络犯罪案件,抓获犯罪嫌疑人13名,查处非...【详细内容】
2021-12-28  Tags: 数据  点击:(5)  评论:(0)  加入收藏
这是很久以前的一则数据,我在iOS平台开发了“先知 - 优质生活”App,本想依靠封闭式环境,广告少体验不错等优点。会有一定的下载量,没想到开发完成后,就被App store埋藏起来了。个...【详细内容】
2021-12-27  Tags: 数据  点击:(5)  评论:(0)  加入收藏
安装环境Linux服务器:Centos 6 64位Oracle服务器:Oracle11gR2 64位 系统要求说明:内存必须高于1G的物理内存;交换空间,一般为内存的2倍(1G的内存可以设置swap 分区为3G大小);硬...【详细内容】
2021-12-27  Tags: 数据  点击:(2)  评论:(0)  加入收藏
作者:雷文霆 爱可生华东交付服务部 DBA 成员,主要负责Mysql故障处理及相关技术支持。爱好看书,电影。座右铭,每一个不曾起舞的日子,都是对生命的辜负。 本文来源:原创投稿 *爱可生...【详细内容】
2021-12-24  Tags: 数据  点击:(7)  评论:(0)  加入收藏
为啥这几年偷税漏税的新闻这么多?不是偷的人多了,是因为国家有了查税大杀器: ...【详细内容】
2021-12-24  Tags: 数据  点击:(10)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  Tags: 数据  点击:(11)  评论:(0)  加入收藏
前言JDBC访问Postgresql的jsonb类型字段当然可以使用Postgresql jdbc驱动中提供的PGobject,但是这样在需要兼容多种数据库的系统开发中显得不那么通用,需要特殊处理。本文介绍...【详细内容】
2021-12-23  Tags: 数据  点击:(13)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(2)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条