CDA数据分析研究院出品
你是否曾经处理过具有一千多个特征的数据集?5万多个特征呢?我曾经有过,让我告诉你这是一项非常具有挑战性的任务,特别是如果你不知道从哪里开始的时候!拥有大量的变量既是好事,也是坏事。我们有大量的数据用于分析,这很棒,但由于规模太大,它变得非常具有挑战性。
在微观层面分析每个变量是不可行的。我们可能需要几天或几个月才能进行任何有意义的分析,我们将会为我们的业务损失大量的时间和金钱!更不用说这将需要的计算能力。我们需要一种更好的方法来处理高维数据,以便我们能够快速从中提取模式和见解。那么我们如何处理这样的数据集呢?
当然是使用降维技术。你可以使用这个技术来减少数据集中的特征数量,而不必丢失太多信息并保持(或改进)模型的性能。正如你将在本文中看到的,这是处理大型数据集的一种非常强大的方法。
这是一个可以在实际场景中使用的各种降维技术的综合指南。在深入介绍我所涵盖的12种不同技术之前,我们将首先了解这个概念是什么以及为什么要使用它。并且每种技术都有自己的Python实现代码,让你更好的熟悉它。
1.什么是降维?
我们每天都在生成大量的数据。事实上,世界上90%的数据都是在过去的3到4年中产生的!这些数字真的令人难以置信。以下是收集的数据的一些例子:
随着数据生成和收集量的不断增加,可视化和绘制分析变得越来越具有挑战性。进行可视化的最常见方法之一是通过图表。假设我们有2个变量,年龄Age和身高Height。我们可以使用Age和Height之间的散点图或线图,并轻松地将它们的关系可视化:
现在考虑我们有100个变量(p = 100)的情况。在这种情况下,我们可以有100(100-1)/ 2 = 5000个不同的图。将它们分别可视化是没有多大意义的,对吧?在我们有大量变量的情况下,最好选择这些变量的一个子集(p << 100),它获取的信息与原始变量集一样多。
让我们用一个简单的例子来理解这一点。考虑下面的图像:
这里我们有类似物体的重量,单位为Kg(X1)和磅(X2)。如果我们使用这两个变量,它们将传达相类似的信息。因此,仅使用一个变量是有意义的。我们可以将数据从2D(X1和X2)转换为1D(Y1),如下所示:
类似地,我们可以将数据的p维度减少为k维度的子集(k << n)。这称为降维。
2.为什么需要降维?
以下是将降维应用于数据集的一些好处:
是时候深入了解本文的关键 - 各种降维技术!我们将使用一个实践问题:Big Mart Sales III中的数据集点击这里下载数据提取码为:fmk0 。
3.常用的降维技术
降维可以通过两种不同的方式完成:
我们现在将介绍各种降维技术以及如何在Python中实现它们。
3.1缺失值比率
假设你有一个数据集。你的第一步是什么?在构建模型之前,你应该会希望先探索数据。在研究数据时,你会发现数据集中存在一些缺失值。怎么办?你将尝试找出这些缺失值的原因,然后将输入它们或完全删除具有缺失值的变量(使用适当的方法)。
如果我们有太多的缺失值(比如说超过50%)怎么办?我们应该输入这些缺失值还是直接删除变量?我宁愿放弃变量,因为它没有太多的信息。然而,这不是一成不变的。我们可以设置一个阈值,如果任何变量中缺失值的百分比大于该阈值,我们将删除该变量。
让我们在Python中实现这种方法。
#导入所需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
首先,让我们加载数据:
#读取数据
train=pd.read_csv("Train_UWu5bXk.csv")
注意:应在读取数据时添加文件的路径。
现在,我们将检查每个变量中缺失值的百分比。我们可以使用.isnull().sum()来计算它。
#检查每个变量中缺失值的百分比
train.isnull().sum()/len(train)*100
正如你在上表中所看到的,并没有太多的缺失值(实际上只有2个变量具有缺失值)。我们可以使用适当的方法来输入变量,或者我们可以设置阈值,比如20%,并删除具有超过20%缺失值的变量。让我们看看如何在Python中完成此操作:
#保存变量中缺失的值
a = train.isnull().sum()/len(train)*100
#将列名保存在变量中
variables = train.columns
variable = [ ]
for i in range(0,12):
if a[i]<=20: #将阈值设置为20%
variable.Append(variables[i])
因此,要使用的变量存储在“variables”中,它只包含哪些缺失值小于20%的特征
3.2低方差过滤器
假设我们的数据集中的一个变量,其中所有观察值都是相同的,例如1。如果我们要使用此变量,你认为它可以改进我们将要建立的模型么?答案当然是否定的,因为这个变量的方差为零。
因此,我们需要计算给出的每个变量的方差。然后删除与我们的数据集中其他变量相比方差比较小的变量。如上所述,这样做的原因是方差较小的变量不会影响目标变量。
让我们首先使用已知ItemWeight观察值的中值来填充temWeight列中的缺失值。对于OutletSize列,我们将使用已知*OutletSize*值的模式来填充缺失值:
train['Item_Weight'].fillna(train['Item_Weight'].median(), inplace=True)
train['Outlet_Size'].fillna(train['Outlet_Size'].mode()[0], inplace=True)
让我们检查一下是否所有的缺失值都已经被填满了:
train.isnull().sum()/len(train)*100
嘿瞧!我们都已经准备好了。现在让我们计算所有数值变量的方差。
train.var()
如上面的输出所示,与其他变量相比,Item_Visibility的方差非常小。我们可以安全地删除此列。这就是我们应用低方差过滤器的方法。让我们在Python中实现这个:
numeric = train[['Item_Weight', 'Item_Visibility', 'Item_MRP', 'Outlet_Establishment_Year']]
var = numeric.var()
numeric = numeric.columns
variable = [ ]
for i in range(0,len(var)):
if var[i]>=10: #将阈值设置为10%
variable.append(numeric[i+1])
上面的代码为我们提供了方差大于10的变量列表。
3.3高度相关过滤器
两个变量之间的高度相关意味着它们具有相似的趋势,并且可能携带类似的信息。这可以大大降低某些模型的性能(例如线性回归和逻辑回归模型)。我们可以计算出本质上是数值的独立数值变量之间的相关性。如果相关系数超过某个阈值,我们可以删除其中一个变量(丢弃一个变量是非常主观的,并且应该始终记住该变量)。
作为一般准则,我们应该保留那些与目标变量显示出良好或高相关性的变量。
让我们在Python中执行相关计算。我们将首先删除因变量(ItemOutletSales)并将剩余的变量保存在新的DataFrame(df)中。
df=train.drop('Item_Outlet_Sales', 1)
df.corr()
太棒了,我们的数据集中没有任何具有高相关性的变量。通常,如果一对变量之间的相关性大于0.5-0.6,我们真的应该认真的考虑丢弃其中的一个变量。
3.4 随机森林
随机森林是最广泛使用的特征选择算法之一。它附带内置的重要功能,因此你无需单独编程。这有助于我们选择较小的特征子集。
我们需要通过应用一个热编码将数据转换为数字形式,因为随机森林(Scikit-Learn实现)仅采用数字输入。让我们也删除ID变量(Item_Identifier和Outlet_Identifier),因为这些只是唯一的数字,目前对我们来说并不重要。
from sklearn.ensemble import RandomForestRegressor
df=df.drop(['Item_Identifier', 'Outlet_Identifier'], axis=1)
model = RandomForestRegressor(random_state=1, max_depth=10)
df=pd.get_dummies(df)
model.fit(df,train.Item_Outlet_Sales)
拟合模型后,绘制特征重要性图:
features = df.columns
importances = model.feature_importances_
indices = np.argsort(importances)[-9:] # top 10 features
plt.title('Feature Importances')
plt.barh(range(len(indices)), importances[indices], color='b', align='center')
plt.yticks(range(len(indices)), [features[i] for i in indices])
plt.xlabel('Relative Importance')
plt.show()
基于上图,我们可以手动选择最顶层的特征来减少数据集中的维度。值得注意的是,我们可以使用sklearn的SelectFromModel来实现这一点。它根据权重的重要性来选择特征。
from sklearn.feature_selection import SelectFromModel
feature = SelectFromModel(model)
Fit = feature.fit_transform(df, train.Item_Outlet_Sales)
3.5 反向特征消除
按照以下步骤来理解和使用“反向特征消除”技术:
在构建线性回归或逻辑回归模型时,可以使用此方法。我们来看看它的Python实现:
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
from sklearn import datasets
lreg = LinearRegression()
rfe = RFE(lreg, 10)
rfe = rfe.fit_transform(df, train.Item_Outlet_Sales)
我们需要指定算法和要选择的特征数量,并返回从反向特征消除中获得的变量列表。我们还可以使用“ rfe.ranking”命令检查变量的排名。
3.6 正向特征选择
这与我们在上面看到的反向特征消除的过程相反。我们是尝试找到改善模型性能的最佳特征,而不是消除特征。该技术的工作原理如下:
让我们用Python实现它:
from sklearn.feature_selection import f_regression
ffs = f_regression(df,train.Item_Outlet_Sales )
这将返回一个数组,其中包含变量的F值和与每个F值对应的p值。为了我们的目的,我们将选择F值大于10的变量:
variable = [ ]
for i in range(0,len(df.columns)-1):
if ffs[0][i] >=10:
variable.append(df.columns[i])
这为我们提供了基于正向特征选择算法的最多变量。
注意:反向特征消除和正向特征选择都是非常耗时且计算成本高的。它们实际上仅用于具有少量输入变量的数据集。
到目前为止我们看到的技术通常在我们的数据集中没有太多变量时使用。这些或多或少的特征选择技术,在接下来的部分中,我们将使用Fashion MNIST数据集,该数据集包含属于不同类型服装的图像,例如T恤,裤子,包等。数据集可点击此处下载,提取码为:a708。
该数据集共有70,000张图像,其中60,000张在训练集中,其余10,000张是测试图像。在本文的范围中,我们将仅处理训练图像。训练集文件采用zip格式。解压缩zip文件后,你将获得一个.csv文件和一个包含这60,000张图像的训练集文件夹。每个图像的相应标签可以在'train.csv'文件中找到。
3.7 因子分析
假设我们有两个变量:收入和教育。这些变量可能具有高度相关性,因为具有较高教育水平的人往往具有显着较高的收入,反之亦然。
在因子分析技术中,变量按其相关性进行分组,即特定组内的所有变量之间具有高度相关性,但往往与其他组的变量之间相关性较低。在这里,每个组都被称为一个因子。与原始数据维度相比,这些因子的数量很少。但是,这些因子往往很难观察到。
让我们先读入训练集文件夹中包含的所有图像:
import pandas as pd
import numpy as np
from glob import glob
import cv2
images = [cv2.imread(file) for file in glob('train/*.png')]
注意:你必须使用train文件夹的路径替换glob函数内的路径。
现在我们将这些图像转换为 numpy数组格式,以便我们可以执行数学运算并绘制图像。
images = np.array(images)
images.shape
(60000,28,28,3)
如上所示,它是一个三维数组。我们必须将它转换为一维的,因为所有即将出现的技术只需要一维输入。为此,我们需要展平图像:
image = []
for i in range(0,60000):
img = images[i].flatten()
image.append(img)
image = np.array(image)
现在让我们创建一个DataFrame,其中包含每个图像中每个像素的像素值,以及它们对应的标签(对于标签,我们将使用train.csv文件)。
train = pd.read_csv("train.csv") # 给出你的train.csv文件的完整路径
feat_cols = [ 'pixel'+str(i) for i in range(image.shape[1]) ]
df = pd.DataFrame(image,columns=feat_cols)
df['label'] = train['label']
现在我们将使用因子分析来分解数据集:
from sklearn.decomposition import FactorAnalysis
FA = FactorAnalysis(n_components = 3).fit_transform(df[feat_cols].values)
这里,n_components将决定转换数据中的因子数量。转换数据后,是时候可视化结果了:
%matplotlib inline
import matplotlib.pyplot as plt
plt.figure(figsize=(12,8))
plt.title('Factor Analysis Components')
plt.scatter(FA[:,0], FA[:,1])
plt.scatter(FA[:,1], FA[:,2])
plt.scatter(FA[:,2],FA[:,0])
看起来很棒,不是吗?我们可以在上图中看到所有不同的因素。这里,x轴和y轴表示分解因子的值。正如我前面提到的,很难单独观察这些因素,但我们已经能够成功地减少数据的维度。
3.8主成分分析(PCA)
PCA是一种技术,可以帮助我们从现有的大量变量中提取一组新的变量。这些新提取的变量称为主成分。为了便于你快速学习PCA降维,以下是你在进一步处理之前应该了解的关于PCA的一些要点:
在继续之前,我们将从我们的数据集中随机绘制一些图像:
rndperm = np.random.permutation(df.shape[0])
plt.gray()
fig = plt.figure(figsize=(20,10))
for i in range(0,15):
ax = fig.add_subplot(3,5,i+1)
ax.matshow(df.loc[rndperm[i],feat_cols].values.reshape((28,28*3)).astype(float))
让我们使用Python实现PCA降维并转换数据集:
from sklearn.decomposition import PCA
pca = PCA(n_components=4)
pca_result = pca.fit_transform(df[feat_cols].values)
在这种情况下,n_components将决定转换数据中的主要成分的数量。让我们看一下使用这4个成分解释了多少差异。我们将使用explainvarianceratio_来计算相同的内容。
plt.plot(range(4), pca.explained_variance_ratio_)
plt.plot(range(4), np.cumsum(pca.explained_variance_ratio_))
plt.title("Component-wise and Cumulative Explained Variance")
在上图中,蓝线表示按成分解释的方差,而橙线表示累积解释的方差。我们只用四个组件就可以解释数据集中大约60%的方差变化。现在让我们尝试可视化每个分解的成分:
import seaborn as sns
plt.style.use('fivethirtyeight')
fig, axarr = plt.subplots(2, 2, figsize=(12, 8))
sns.heatmap(pca.components_[0, :].reshape(28, 84), ax=axarr[0][0], cmap='gray_r')
sns.heatmap(pca.components_[1, :].reshape(28, 84), ax=axarr[0][1], cmap='gray_r')
sns.heatmap(pca.components_[2, :].reshape(28, 84), ax=axarr[1][0], cmap='gray_r')
sns.heatmap(pca.components_[3, :].reshape(28, 84), ax=axarr[1][1], cmap='gray_r')
axarr[0][0].set_title(
"{0:.2f}% Explained Variance".format(pca.explained_variance_ratio_[0]*100),
fontsize=12
)
axarr[0][1].set_title(
"{0:.2f}% Explained Variance".format(pca.explained_variance_ratio_[1]*100),
fontsize=12
)
axarr[1][0].set_title(
"{0:.2f}% Explained Variance".format(pca.explained_variance_ratio_[2]*100),
fontsize=12
)
axarr[1][1].set_title(
"{0:.2f}% Explained Variance".format(pca.explained_variance_ratio_[3]*100),
fontsize=12
)
axarr[0][0].set_aspect('equal')
axarr[0][1].set_aspect('equal')
axarr[1][0].set_aspect('equal')
axarr[1][1].set_aspect('equal')
plt.suptitle('4-Component PCA')
我们添加到PCA技术中的每个额外维度获取模型中的方差越来越少。第一个部分是最重要的成分,其次是第二个成分,然后是第三个成分,依此类推。
我们还可以使用奇异值分解 (SVD)将我们的原始数据集分解为其成分,从而减少维数。
SVD将原始变量分解为三个组成矩阵。它主要用于从数据集中删除冗余的特征。它使用特征值和特征向量的概念来确定这三个矩阵。由于本文的范围,我们不会深入研究它的理论,但让我们坚持我们的计划,即减少数据集中的维度。
让我们实现SVD并分解我们的原始变量:
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=3, random_state=42).fit_transform(df[feat_cols].values)
让我们通过绘制前两个主成分来可视化变换后的变量:
plt.figure(figsize=(12,8))
plt.title('SVD Components')
plt.scatter(svd[:,0], svd[:,1])
plt.scatter(svd[:,1], svd[:,2])
plt.scatter(svd[:,2],svd[:,0])
上面的散点图非常清晰地向我们展示了分解的成分。如前所述,这些组件之间没有太多相关性。
3.9独立成分分析
独立成分分析(ICA)是基于信息理论的,也是最广泛使用的降维技术之一。PCA和ICA之间的主要区别在于PCA寻找不相关的因素,而ICA寻找独立因素。
如果两个变量不相关,则意味着它们之间没有线性关系。如果它们是独立的,则意味着它们不依赖于任何其他变量。例如,一个人的年龄与该人吃什么或他/她看多少电视无关。
该算法假设给定变量是一些未知潜在变量的线性混合。它还假设这些潜在变量是相互独立的,即它们不依赖于其他变量,因此它们被称为观察数据的独立成分。
让我们直观地比较一下PCA和ICA,以便更好地了解它们的不同之处:
这里,图像(a)表示PCA结果,而图像(b)表示相同数据集上的ICA结果。
PCA的方程是x = W x。
现在我们必须找到一个非混合矩阵,使成分尽可能的独立。测量成分独立性的最常用方法是非高斯性:
上述分布是非高斯分布,这又使得各成分互相独立。让我们尝试在Python中实现ICA:
from sklearn.decomposition import FastICA
ICA = FastICA(n_components=3, random_state=12)
X=ICA.fit_transform(df[feat_cols].values)
这里,n_components将决定转换数据中的成分数量。我们使用ICA将数据转换为3个成分。让我们看看它是如何改变数据的:
plt.figure(figsize=(12,8))
plt.title('ICA Components')
plt.scatter(X[:,0], X[:,1])
plt.scatter(X[:,1], X[:,2])
plt.scatter(X[:,2], X[:,0])
数据已经被分成不同的独立成分,在上图中可以非常清楚地看到。X轴和Y轴表示分解的独立成分的值。
现在我们将看到一些使用投影技术来减少数据维度的方法。
3.10基于投影的方法
首先,我们需要了解投影是什么。假设我们有两个向量,矢量a和矢量b,如下所示:
我们想求a在b上的投影。那么设a和b之间的角度为∅。投影(a1)看起来像:
a1是与b平行的向量。因此,我们可以使用以下等式得到向量a在向量b上的投影:
通过将一个矢量投影到另一个矢量上,可以降低维度。
在投影技术中,可以通过将其点投影到较低维空间来表示多维数据。现在我们将讨论不同的预测方法:
曾几何时,人们认为地球是平的。无论你去哪里,它都会保持平坦(让我们暂时忽视山脉)。但是,如果你继续向一个方向走,那么你最终会走向何方。如果地球是平坦的,那这就不会发生。地球只是看起来比较平坦,那是因为我们看到的与地球相比是微不足道的。
地球看起来平坦的这些小部分是多方面的,如果我们将所有这些方面组合在一起,我们就可以获得地球的大尺度视图,也就是原始数据。类似地,对于n维曲线,小的平面快是流形,并且这些流形的组合将给出我们原始的n维曲线。让我们看看投影到流形上的步骤:
让我们通过一个例子来理解流形投影技术。
如果一个流形连续可微缩到任意阶,则称为平滑流形或可微分流形。ISOMAP是一种旨在恢复非线性流形的完整低维表示的算法。它假设流形是平滑的。
它还假设对于流形上的任何一对点,两点之间的测地距离(曲面上两点之间的最短距离)等于欧几里德距离(直线上两点之间的最短距离)。让我们首先形象化一对点之间的测地线和欧几里德距离:
ISOMAP假设这两个距离相等。现在让我们看一下这种技术更详细的解释。如前所述,所有这些技术都采用三步法。我们将详细介绍这些步骤:
让我们用Python实现它,这样就更清楚的理解我在说什么了。我们将通过等距映射进行非线性降维。对于可视化,我们将只采用数据集的一个子集,因为在整个数据集上运行它将需要花费大量时间。
from sklearn import manifold
trans_data = manifold.Isomap(n_neighbors=5, n_components=3, n_jobs=-1).fit_transform(df[feat_cols][:6000].values)
使用的参数:
可视化转换后的数据:
plt.figure(figsize=(12,8))
plt.title('Decomposition using ISOMAP')
plt.scatter(trans_data[:,0], trans_data[:,1])
plt.scatter(trans_data[:,1], trans_data[:,2])
plt.scatter(trans_data[:,2], trans_data[:,0])
你可以在上面看到这些成分之间的相关性非常低。实际上,与我们之前使用SVD获得的成分相比,它们的相关性更小!
3.11 t-分布式随机邻域嵌入(t-SNE)
到目前为止,我们已经了解到PCA对于具有大量变量的数据集的降维和可视化是一个很好的选择。但是,如果我们可以使用更高级的东西呢?如果我们可以轻松地以非线性方式搜索呢?t-SNE就是这样一种技术。我们可以使用两种方法来映射数据点:
xi和xj是数据点,|| xi-xj || 表示这些数据点之间的欧几里德距离,σi是高维空间中数据点的方差
其中:|| yi-yj || 表示yi和yj之间的欧几里德距离
现在我们将用Python实现它,并将结果可视化:
from sklearn.manifold import TSNE
tsne = TSNE(n_components=3, n_iter=300).fit_transform(df[feat_cols][:6000].values)
n_components将决定转换数据中的成分数量。是时候查看可视化转换后的数据:
plt.figure(figsize=(12,8))
plt.title('t-SNE components')
plt.scatter(tsne[:,0], tsne[:,1])
plt.scatter(tsne[:,1], tsne[:,2])
plt.scatter(tsne[:,2], tsne[:,0])
在这里,你可以清楚地看到使用强大的t-SNE技术转换的不同成分。
3.12 UMAP
t-SNE在大型数据集上工作表现很好,但它也有它的局限性,例如丢失大型的信息,计算时间慢,无法有意义地表示非常大的数据集。统一流形近似和投影(UMAP)是一种降维技术,与t-SNE相比,可以保留尽可能多的本地数据结构和全局数据结构,并且运行时间更短。听起来很有趣,对吧。
UMAP的一些主要优势是:
该方法使用k-近邻的概念,并使用随机梯度下降来优化结果。它首先计算高维空间中的点之间的距离,将它们投影到低维空间,并计算该低维空间中的点之间的距离。然后,它使用随机梯度下降来最小化这些距离之间的差异。
我们现在将在Python中实现它:
import umap
umap_data = umap.UMAP(n_neighbors=5, min_dist=0.3, n_components=3).fit_transform(df[feat_cols][:6000].values)
让我们可视化一下这个变换:
plt.figure(figsize=(12,8))
plt.title('Decomposition using UMAP')
plt.scatter(umap_data[:,0], umap_data[:,1])
plt.scatter(umap_data[:,1], umap_data[:,2])
plt.scatter(umap_data[:,2], umap_data[:,0])
维度已经减少了,我们可以想象不同的变换成分。变换后的变量之间的相关性非常小。让我们比较UMAP和t-SNE的结果:
我们可以看到,与从t-SNE获得的成分之间的相关性相比,从UMAP获得的成分之间的相关性非常小。因此,UMAP倾向于提供更好的结果。
正如UMAP的GitHub代码库中所提到的,与t-SNE相比,它在保留数据全局结构方面的表现更好。这意味着它通常可以提供更好的“全局”数据视图以及保留本地邻居关系。
深呼吸。我们已经学习了相当多的降维技术。让我们简要总结一下在那里可以使用它们。
4. 简要总结什么时候使用什么技术
在本节中,我们将简要总结我们所涵盖的每种降维技术的使用案例。了解在什么地方可以使用什么样的技术,因为它有助于节省时间,精力和计算能力。
结束语
这是一篇关于降维的全面文章,你可以在任何地方用到它!在编写过程中我获得了很多的乐趣,并找到了一些我之前从来没用使用过的新方法(比如UMAP)。
处理成千上万的特征是任何数据科学家必备的技能。我们每天生成的数据量是前所未有的,我们需要找到不同的方法来确定如何使用它。降维是一种非常有用的方法,对我来说,无论是在专业的应用中,还是在机器学习的比赛中,它都产生了奇妙的效果。
The Ultimate Guide to 12 Dimensionality Reduction Techniques (with Python codes)