您当前的位置:首页 > 互联网百科 > 大数据

大数据:如何在大数据挖掘时做预处理

时间:2022-07-11 14:24:23  来源:  作者:微说互联网
大数据:如何在大数据挖掘时做预处理

 

在我们平时进行数据挖掘建模时,一般首先得对数据进行预处理,其中常用的方法包括缺失值处理、共线性处理、异常值处理、数据标准化、数据归一化等。

缺失值处理

有时样本的数据获取不全,部分特征可能存在缺失值或无效值。对于这种情况,需要对数据进行缺失值处理,否则可能会导致模型训练失败。

对于缺失值的处理,需要用一个有效的数据来填补上,通常做法是用每一个特征的全局平均值来代替无效值。

Python/ target=_blank class=infotextkey>Python中,有一个专门的 Imputer 类来处理缺失值。

from sklearn.preprocessing import Imputer
import numpy as np

#导入要进行缺失值处理的数据文件
data = np.genfromtxt('input.csv', skip_header=True, delimiter=',')

#无效值在数据文件中的标识是'NAN', strategy='mean'表示用全局平均值代替无效值,axis=0表示对列进行处理
imp = Imputer(missing_values='NAN', strategy='mean', axis=0)

#训练一个缺失值处理模型
imp.fit(data)

outfile = imp.transform(data)

#存储到本地
np.savetxt('output.csv', outfile, delimiter=',')

数据标准化

数据标准化是将数据按比例缩放,使之落入一个小的特定区间,目的在于去除数据的单位限制,转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。归一化处理也是数据标准化处理的一种特殊形式。

下面的代码展示了z-score标准化,preprocessing 模块的 scale() 方法可实现标准化。经过处理后,数据的均值为0,标准差为1。

from sklearn import preprocessing

import numpy as np

data = np.genfromtxt('input.csv', skip_header=True, delimiter=',')

#对一个数据集进行Z标准化
zdata = preprocessing.scale(data)

np.savetxt('z_core_out.txt', zdata, delimiter=',')

数据归一化是把每个特征都缩到0-1之间时,可以用如下代码。

min_max_scale = preprocessing.MinMaxScaler()

min_max_data = min_max_scale.fit_transform(data)

np.savetxt('min_max_out1.csv', min_max_data, delimiter=',')

多重共线性

当自变量之间存在共线性时, 模型的参数会变得极其不稳定, 模型的预测能力会下降。很难确切区分每个自变量对因变量的影响, 因此增加了对于模型结果解释的成本。

导致出现变量间共线性的原因可能包括:

  • 数据样本不够,导致共线性存在偶然性。
  • 多个变量都基于时间有共同或相反的演变趋势。
  • 多个变量间存在一定的推移关系,但总体上变量间的趋势一致,只是发生的时间点不一致。
  • 多个变量间存在近似线性相关的关系。

解决共线性问题的常用方法包括:

  • 增大样本量:通过增加样本量,来消除由于数据量不足而出现的偶然共线性现象。
  • 岭回归分析(Ridge Regression):岭回归分析是一种专用于共线性问题的有偏估计回归方法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。
  • 逐步回归法(Stepwise Regression):逐步回归法是每次引入一个自变量并进行统计检验,然后逐步引入其他自变量,同时对所有变量的回归系数进行检验。如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除,逐步得到最优回归方程。
  • 主成分回归(Principal Components Regression):通过主成分分析,将原始参与建模的变量转换为少数几个主成分,每个主成分是原变量的共线性组合。然后基于主成分做回归分析,这样也可以在不丢失重要数据特征的前提下避开共线性问题。
  • 人工去重:直接结合人工经验,对参与回归模型计算的自变量进行删减,也是一个较为常用的方法,但这种方法需要操作者对于业务、模型和数据都有相对深入的理解。

分类变量处理

分类变量是指一个变量只能取到有限数量的值。比如一项关于健身产业的市场调查,日常锻炼的频率提供了四个选项:“从不”、“偶尔”、“每周一次”或“每周多次”。在这种情况下,数据是分类的,因为答案属于一组固定的类别。再如汽车品牌的调查,汽车品牌的数据也是分类的。

如果将分类变量的数据直接输入到机器学习模型而不首先对其进行预处理的话,就会出现错误。处理分类变量数据的常用预处理方法是:序数编码和One-Hot 编码。

序数编码(Ordinal Encoding):将每个唯一值分配给不同的整数。如下例:关于是否吃早餐的调查,包括了每天、从不、偶尔和经常几个不同的类别。

大数据:如何在大数据挖掘时做预处理

序数编码

这些类别本身具有天然的排序关系,因此可以用序数编码来定义类别:“从不”(0)<“偶尔”(1)<“经常”(2)<“每天”(3)。

One-hot 编码(One-hot Encoding)

对于本身不具有排序关系的分类变量,可以采用One-hot编码。下面举一个One-hot编码的例子。

大数据:如何在大数据挖掘时做预处理

One-hot编码

在原始数据集中,“颜色”是一个分类变量,具有“红色”、“黄色”和“绿色”三个类别。对应的 one-hot 编码的每一列代表着每个可能值。如果原始值为“红色”,在“红色”列中输入 1,其他列为0;其他颜色的原始值依此类推。

与序数编码相比,one-hot 编码不假设类别的排序。因此,如果分类数据中没有明确的顺序,可以期望one-hot编码是行之有效的。

不平衡性处理

数据不平衡经常出现在分类问题上,数据不平衡指的是在数据集中不同类别的样本数量差距很大。对于很多实际业务场景,不同类别的样本先天就是不平衡的。

样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡。大数据分布不均衡整体数据规模大,只是小样本类占比比较少,比如1000W:50W,但小样本还是可以覆盖大部分或者全部的特征。小数据分布不均衡是小样本包含特征过少,机器难以取得规律,即使取得也会出现过拟合,模型的准确性和健壮性会很差。对于严重的样本不均衡,也没有合适的解决办法

对于大数据分布不均衡,可以通过数据预处理或者模型上面想办法解决。在模型上可以通过参数调整,或者集成学习的方法解决。本文主要说下数据预处理的办法。

1. 过采样

对少数数据进行有放回的过采样,使原本的数据变得均衡,这样就是对少数数据进行了复制,容易造成过拟合。

2. 欠采样

对多数数据进行有放回/无放回的欠采样,这样会丢失一些样本,损失信息,模型只学会了整体模式的一部分,容易欠拟合。

3.SMOTE算法

概括来说SMOTE算法是通过“插值”来为少数类合成新的样本,来弥补少数类样本的不足。主要过程如下。

  • 采用最近邻算法,计算每个少数样本的K个近邻
  • 从K个近邻中随机选择一些样本进行线性插值
  • 构造新的少数样本
  • 新样本与原数据结合,形成新的训练集

在数据挖掘前的预处理非常重要,会直接影响到模型的训练效果,本文列出了主要的数据预处理要解决的问题以及对应方法,希望大家都能取得好的效果。



Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
“霸王条款”“刷单炒信”“大数据杀熟”怎么破解?这部法规都明确了!
预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售&hellip;&hellip;这些新领域的侵权你遇到过吗?消费者合法权益怎么保...【详细内容】
2024-04-11  Search: 大数据  点击:(14)  评论:(0)  加入收藏
市场监管总局:禁止“大数据杀熟”规范“自动续费”
本报讯 (记者韩昱) 近日,《中华人民共和国消费者权益保护法实施条例》(以下简称《条例》)正式发布。4月9日,国新办举行国务院政策例行吹风会,市场监管总局副局长柳军介绍《条例》有...【详细内容】
2024-04-10  Search: 大数据  点击:(7)  评论:(0)  加入收藏
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注&mdash;&mdash;用3个账号买同一航班同...【详细内容】
2024-01-30  Search: 大数据  点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30  Search: 大数据  点击:(41)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  Search: 大数据  点击:(41)  评论:(0)  加入收藏
Java后端+Java大数据+前端
web前端开发主要涉及创建网页或网站的用户界面,包括布局、样式、动画、交互等。web前端开发需要掌握HTML、CSS、JavaScript等基础语言,以及各种框架和库,如React、Vue、Bootstr...【详细内容】
2023-12-28  Search: 大数据  点击:(111)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  Search: 大数据  点击:(49)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19  Search: 大数据  点击:(43)  评论:(0)  加入收藏
MongoDB与大数据处理:构建高性能分布式数据库
MongoDB是一种非关系型数据库,具有高度灵活性和可扩展性。在处理大量数据时,索引的优化是提升查询性能的关键。下面将介绍一些MongoDB索引优化的指南,帮助用户更好地利用索引来...【详细内容】
2023-12-18  Search: 大数据  点击:(73)  评论:(0)  加入收藏
Java与MySQL大数据处理的技巧
处理海量数据是现代应用程序中常见的挑战之一,尤其是在Java与MySQL这样的技术栈中。下面将介绍一些处理海量数据的技巧和策略,并讨论如何通过Java与MySQL实现高效的大数据处理...【详细内容】
2023-11-29  Search: 大数据  点击:(215)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注&mdash;&mdash;用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(41)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(57)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(41)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(49)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(43)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(71)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(65)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(68)  评论:(0)  加入收藏
站内最新
站内热门
站内头条