使用Python预测缺失值

时间：2020-09-17 09:33:47 来源：作者：

对于数据科学家来说，处理丢失的数据是数据清理和模型开发过程中的一个重要部分。通常情况下，真实数据包含多个稀疏字段或包含错误值的字段。在这篇文章中，我们将讨论如何建立可以用来填补数据中缺失或错误值的模型。

出于我们的目的，我们将使用可以在这里找到的葡萄酒数据集:https://www.kaggle.com/zynicide/wine-reviews

import pandas as pd
df = pd.read_csv("winemag-data-130k-v2.csv")

接下来，让我们输出前五行数据：

print(df.head())

让我们从这些数据中随机抽取500条记录。这将有助于加快模型训练和测试，尽管读者可以很容易地对其进行修改：

import pandas as pd
df = pd.read_csv("winemag-data-130k-v2.csv").sample(n=500, random_state = 42)

现在，让我们打印与数据对应的信息，这将使我们了解哪些列缺少值：

print(df.info())

有几个列的非空值小于500，这与缺少的值相对应。首先，让我们考虑建立一个模型，用“points”来估算缺失的“price”值。首先，让我们打印“price”和“points”之间的相关性：

print("Correlation: ", df['points'].corr(df['price']))

我们看到了一个微弱的正相关。让我们建立一个线性回归模型，用“points”来预测“price”。首先，让我们从“scikit learn”导入“LinearRegresssion”模块：

from sklearn.linear_model import LinearRegression

现在，让我们为训练和测试拆分数据。我们希望能够预测缺失值，但我们应该使用真实值“price”来验证我们的预测。让我们通过只选择正价格值来筛选缺少的值：

import numpy as np 
df_filter = df[df['price'] > 0].copy()

我们还可以初始化用于存储预测和实际值的列表：

y_pred = []
y_true = []

我们将使用K-fold交叉验证来验证我们的模型。让我们从“scikit learn”导入“KFolds”模块。我们将使用10折来验证我们的模型：

from sklearn.model_selection import KFold
kf = KFold(n_splits=10, random_state = 42)
for train_index, test_index in kf.split(df_filter):
    df_test = df_filter.iloc[test_index]    df_train = df_filter.iloc[train_index]

我们现在可以定义我们的输入和输出：

for train_index, test_index in kf.split(df_filter):
    ...    X_train = np.array(df_train['points']).reshape(-1, 1)     
    y_train = np.array(df_train['price']).reshape(-1, 1)
    X_test = np.array(df_test['points']).reshape(-1, 1)  
    y_test = np.array(df_test['price']).reshape(-1, 1)

并拟合我们的线性回归模型：

for train_index, test_index in kf.split(df_filter):
    ...    model = LinearRegression()    model.fit(X_train, y_train)

现在让我们生成并存储我们的预测：

for train_index, test_index in kf.split(df_filter):
    ...    y_pred.Append(model.predict(X_test)[0])
    y_true.append(y_test[0])

现在让我们评估一下模型的性能。让我们用均方误差来评估模型的性能：

print("Mean Square Error: ", mean_squared_error(y_true, y_pred))

并不太好。我们可以通过训练平均价格加上一个标准差来改善这一点：

df_filter = df[df['price'] <= df['price'].mean() + df['price'].std() ].copy()
...print("Mean Square Error: ", mean_squared_error(y_true, y_pred))

虽然这大大提高了性能，但其代价是无法准确估算葡萄酒的price。与使用单一特征的回归模型预测价格不同，我们可以使用树基模型，例如随机森林模型，它可以处理类别和数值变量。

让我们建立一个随机森林回归模型，使用“country”、“province”、“variety”、“winery”和“points”来预测葡萄酒的“price”。首先，让我们将分类变量转换为可由随机森林模型处理的分类代码：

df['country_cat'] = df['country'].astype('category')
df['country_cat'] = df['country_cat'].cat.codes
df['province_cat'] = df['province'].astype('category')
df['province_cat'] = df['province_cat'].cat.codes
df['winery_cat'] = df['winery'].astype('category')
df['winery_cat'] = df['winery_cat'].cat.codes
df['variety_cat'] = df['variety'].astype('category')
df['variety_cat'] = df['variety_cat'].cat.codes

让我们将随机样本大小增加到5000：

df = pd.read_csv("winemag-data-130k-v2.csv").sample(n=5000, random_state = 42)

接下来，让我们从scikit learn导入随机森林回归器模块。我们还可以定义用于训练模型的特征列表：

from sklearn.ensemble import RandomForestRegressor
features = ['points', 'country_cat', 'province_cat', 'winery_cat', 'variety_cat']

让我们用一个随机森林来训练我们的模型，它有1000个估计量，最大深度为1000。然后，让我们生成预测并将其附加到新列表中：

for train_index, test_index in kf.split(df_filter):
    df_test = df_filter.iloc[test_index]    df_train = df_filter.iloc[train_index]    X_train = np.array(df_train[features])
    y_train = np.array(df_train['price'])
    X_test = np.array(df_test[features])
    y_test = np.array(df_test['price'])
    model = RandomForestRegressor(n_estimators = 1000, max_depth = 1000, random_state = 42)
    model.fit(X_train, y_train)    y_pred_rf.append(model.predict(X_test)[0])
    y_true_rf.append(y_test[0])

最后，让我们评估随机森林和线性回归模型的均方误差：

print("Mean Square Error (Linear Regression): ", mean_squared_error(y_true, y_pred))
print("Mean Square Error (Random Forest): ", mean_squared_error(y_pred_rf, y_true_rf))

我们看到随机森林模型具有优越的性能。现在，让我们使用我们的模型预测缺失的价格值，并显示price预测：

df_missing = df[df['price'].isnull()].copy()
X_test_lr = np.array(df_missing['points']).reshape(-1, 1)
X_test_rf = np.array(df_missing[features])
X_train_lr = np.array(df_filter['points']).reshape(-1, 1)    
y_train_lr = np.array(df_filter['price']).reshape(-1, 1)
X_train_rf = np.array(df_filter[features])
y_train_rf = np.array(df_filter['price'])
model_lr = LinearRegression()
model_lr.fit(X_train_lr, y_train_lr)
print("Linear regression predictions: ", model_lr.predict(X_test_lr)[0][0])
model_rf = RandomForestRegressor(n_estimators = 1000, max_depth = 1000, random_state = 42)
model_rf.fit(X_train_rf, y_train_rf)
print("Random forests regression predictions: ", model_rf.predict(X_test_rf)[0])

我就到此为止，但我鼓励你尝试一下特征选择和超参数调整，看看是否可以提高性能。此外，我鼓励你扩展此数据进行插补模型，以填补“region_1”和“designation”等分类字段中的缺失值。在这里，你可以构建一个基于树的分类模型，根据分类和数值特征来预测所列类别的缺失值。

结论

总而言之，在这篇文章中，我们讨论了如何建立机器学习模型，我们可以用来填补数据中的缺失值。首先，我们建立了一个线性回归模型，用以预测葡萄酒的价格。然后，我们建立了一个随机森林模型，用“points”和其他分类变量来预测葡萄酒价格。我们发现，随机森林模型显著优于基于线性回归的数据插补模型。本文中的代码可以在GitHub上找到。谢谢你的阅读！

Github链接：https://github.com/spierre91/medium_code/blob/master/machine_learning/predict_missing_data.py

Tags：Python 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

手机Python编程神器——AidLearning

1、让我们一起来看下吧，直接上图。第一眼看到是不是觉得很高逼格，暗黑画风，这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统，而且还包含了许多非常强大...【详细内容】

2022-07-15　　Tags: Python 点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心！一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放 ...【详细内容】

2022-07-14　　Tags: Python 点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接，废话不多说咱们直接进入主题吧。一、什么是 PyMySQL？PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，P...【详细内容】

2022-07-11　　Tags: Python 点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

aiohttp什么是 aiohttp？一个异步的 HTTP 客户端\服务端框架，基于 asyncio 的异步模块。可用于实现异步爬虫，更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】

2022-07-11　　Tags: Python 点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中，比如爬虫，有的线程负责爬取数据，有的线程负责对爬取到的数据做处理（清洗、分类和入库）。假如他们是直接交互的，...【详细内容】

2022-07-06　　Tags: Python 点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

继承：是面向对象编程最重要的特性之一，例如，我们每个人都从祖辈和父母那里继承了一些体貌特征，但每个人却又不同于父母，有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】

2022-07-06　　Tags: Python 点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

点击上方头像关注我，每周上午 09:00准时推送，每月不定期赠送技术书籍。本文1553字，阅读约需4分钟 Hi，大家好，我是CoCo。在上一篇Python自动化测试系列文章：Python自动化测试之P...【详细内容】

2022-07-05　　Tags: Python 点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

第一种方式：res = requests.get(url, params=data, headers = headers)第二种方式：res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】

2022-07-05　　Tags: Python 点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

什么是python类的多态python的多态，可以为不同的类实例，或者说不同的数据处理方式，提供统一的接口。用比喻的方式理解python类的多态比如，同一个苹果（统一的接口）在孩子的眼里（类实...【详细内容】

2022-07-04　　Tags: Python 点击:(28)　　评论:(0)　　加入收藏

告别加班！Python批量生成合同文档，解决合同重复制作问题

假设某日我开了一家空调公司，暂且就叫他天强空调安装设备公司吧，假装自己有公司，接了一单大生意，就是给甘肃省的各个高校安装空调（其实这边的气候基本用不到空调，就是假想一下），那么...【详细内容】

2022-07-01　　Tags: Python 点击:(33)　　评论:(0)　　加入收藏

▌简易百科推荐

什么是Web3.0，与当下Web有什么区别，在未来真的能实现吗？

近几年 Web3 被炒得火热，但是大部分人可能还不清楚什么是 Web3，今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么？与我们熟知的 Web1 和 Web2 又有什么区别呢？web3.0什么是...【详细内容】

2022-07-15　　编程狮W3Cschool　　　　Tags:Web3.0 　点击:(2)　　评论:(0)　　加入收藏

手机Python编程神器——AidLearning

2022-07-15　　IT智能化专栏　　　　Tags:AidLearning 　点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

2022-07-14　　菜鸟程序猿　　　　Tags:Python 　点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

2022-07-11　　测试架构师百里　　　　Tags:python 　点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

2022-07-11　　VT漫步　　　　Tags:aiohttp 　点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

2022-07-06　　VT漫步　　　　Tags:Python Queue 　点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

2022-07-06　　至尊小狸子　　　　Tags:python 　点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

2022-07-05　　CoCo的软件测试小栈　　　　Tags:Python 　点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

2022-07-05　　独钓寒江雪之IT　　　　Tags:Python request 　点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

2022-07-04　　写小说的程序员　　　　Tags:python类　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

一文搞懂响应式编程	Android开发组件化与
最流行的 .NET 反编译	MyBatis源码解读 \| 使
mysql数据库中的my.in	女生，人生第一支大牌口
防晒不分男女！防晒帽同	手表鉴定 \| 一眼看真