您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

分类算法其实也可做回归分析——以knn为例

时间:2020-06-23 10:37:42  来源:  作者:

摘要: 本文以knn算法为例简要介绍如何使用分类算法来完成回归任务。

关键字: knn算法,回归任务。

之前的文章(K近邻(knn)算法是如何完成分类的?)已经介绍了knn算法的思想以及如何使用sklearn去实现这个算法了,其实大多的分类算法也是可以做回归的,特别是当训练数据比较多的时候效果就更加明显。下面让我们看看如何使用分类算法来做回归分析。

本文部分内容参考文献[1]。

1 构建回归分析的数据

为了仿真回归分析,我们也不得不自己构造能够满足回归分析的数据了。其构造如下:

import numpy as np
def makeRegressionData(n_samples=100):
    rnd = np.random.RandomState(42)  # 设置伪随机状态
    x = rnd.uniform(-3, 3, size=n_samples)    # 随机生成范围在[-3,3) n_samples个点的随机数
    y_no_noise = (np.sin(4 * x) + x)          # 目标函数
    y = (y_no_noise + rnd.normal(size=len(x))) / 2  # 加入满足标注正太分布的随机噪声
    return x.reshape(-1, 1), y

数据可视化:

import matplotlib.pyplot as plt
X, y = makeRegressionData(n_samples=40)
plt.plot(X, y, 'o')
plt.ylim(-3, 3)
plt.xlabel('Feature')
plt.ylabel('Target')
plt.show()
分类算法其实也可做回归分析——以knn为例

 

2 n邻居预测结果

原理展示图代码:

from sklearn.metrics import euclidean_distances
from sklearn.neighbors import KNeighborsRegressor

def plot_knn_regression(X, y, X_test, n_neighbors=1):
    dist = euclidean_distances(X, X_test)   # 计算欧式距离
    closest = np.argsort(dist, axis=0)      # 对距离进行排序
    plt.figure(figsize=(10, 6))
    # knn回归
    reg = KNeighborsRegressor(n_neighbors=n_neighbors).fit(X, y)
    # 预测值
    y_pred = reg.predict(X_test)            # 找出预测值
    # 测试点与最近的n个点之间的连线
    for x, y_, neighbors in zip(X_test, y_pred, closest.T):
        for neighbor in neighbors[:n_neighbors]:
            plt.arrow(x[0], y_, X[neighbor, 0] - x[0], y[neighbor] - y_, head_width=0, fc='k', ec='k')
    # 各种数据绘制
    train, = plt.plot(X, y, 'o', c='#0000aa')
    test, = plt.plot(X_test, -3 * np.ones(len(X_test)), '*', c='#50ff50', markersize=20)
    pred, = plt.plot(X_test, y_pred, '*', c='#0000aa', markersize=20)
    # x, ymin, ymax
    plt.vlines(X_test, -3.1, 3.1, linestyle="--")
    # 显示图例
    plt.legend([train, test, pred],
               ["training data/target", "test data", "test prediction"],
               ncol=3, loc=(.1, 1.025))
    # 坐标轴设置
    plt.ylim(-3.1, 3.1)
    plt.xlabel("Feature")
    plt.ylabel("Target")

    
X_test = np.array([[-1.5], [0.9], [1.5]])   # 测试数据
plot_knn_regression(X,y,X_test)  # k=1
plot_knn_regression(X,y,X_test, n_neighbors=3)  # k=3

结果图:

分类算法其实也可做回归分析——以knn为例

 


分类算法其实也可做回归分析——以knn为例

 

注: 特征只有一个,测试数据点与数据集之间的具体体现在x轴之间的距离

从上图就可以很容易理解,k近邻算法回归分析的思路了,找到最近的几个点,计算均值即可。

3 模型使用

有了之前的基础,构建一个模型就简单多了,如下:

from sklearn.model_selection import train_test_split
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=40)
# 构建模型并训练
reg = KNeighborsRegressor(n_neighbors=3)
reg.fit(X_train, y_train)
"""
KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                    weights='uniform')
"""
# 模型预测
print("Test set predictions:n{}".format(reg.predict(X_test)))
"""
Test set predictions:
[ 0.82597372 -0.5856804   0.0836095  -1.02040464  0.41271285 -0.23052151
 -1.62784743 -1.62784743  0.82597372 -0.23052151]
"""
print("Test set R^2:{:.2f}".format(reg.score(X_test, y_test)))
"""
Test set R^2:0.71
"""

需要说明的是:在sklearn中使用score来苹果模型,在回归问题上,返回的是R^2分数,也叫做决定系数,是回归模型预测的优度度量,位于0与1之间。R^2等于1对应完美预测。

4 KNeighborsRegressor分析

fig, axes = plt.subplots(1, 3, figsize=(15, 4))
line = np.linspace(-3, 3, 1000).reshape(-1, 1)
for n_neighbors, ax in zip([1, 3, 9], axes):
    reg = KNeighborsRegressor(n_neighbors=n_neighbors)  # 根据参数构建模型
    reg.fit(X_train, y_train)
    ax.plot(line, reg.predict(line))  # 绘制预测值
    # 绘制训练数据、测试数据
    ax.plot(X_train, y_train, '^', c='#0000aa', markersize=8)
    ax.plot(X_test, y_test, 'v', c='#ff5050', markersize=8)
    ax.set_title("{} neightbor(s)n train score:{:.2f} test score:{:.2f}".format(n_neighbors, reg.score(X_train, y_train), reg.score(X_test, y_test)))
    ax.set_xlabel('Feature')
    ax.set_ylabel('Target')

axes[0].legend(["Model predictions", "Training data/target", "Test data/target"], loc='best')

绘制结果如下:

分类算法其实也可做回归分析——以knn为例

 

结果总结:从结果图可以看出,当仅使用1个邻居时,训练集的正确率为100%,测试集得分不高,随着邻居个数增多,拟合的曲线变得更加平滑,但训练集得分降低,测试集得分先增高后降低。

总结

KNN模型容易理解,不需要过多的调节就可以得到不错的结果,但如果训练集数据比较多,预测速度就会变慢,并且还要有比较好的数据预处理。如果要解决的数据是稀疏数据,效果就不好了。当然本部分内容是参考《Python机器学习基础教程》内容并结合自己的理解写出,所以我还是推荐​一下这本书,或者可以在订阅号“AIAS编程有道”中回复“Python机器学习基础教程”获取电子档后决定​是否要购买,建议购买正版书籍。​



Tags:分类算法   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
有时可以将机器学习算法视为一个黑匣子,那么我们如何以更直观的方式来解释它们呢?在下图中,给定蓝点和红点,我们可以看到有一个图案。 作为人类,我们可以使用"直觉"将它们分开,并...【详细内容】
2021-04-14  Tags: 分类算法  点击:(275)  评论:(0)  加入收藏
导读通常我们在解决某个问题的时候,会设计多种分类算法在训练的时候我们还会调节各种超参以及使用各种trick以获取最优的分类模型,那这时候我们应该如何来衡量这个最优呢?分类...【详细内容】
2020-09-27  Tags: 分类算法  点击:(96)  评论:(0)  加入收藏
摘要: 本文以knn算法为例简要介绍如何使用分类算法来完成回归任务。关键字: knn算法,回归任务。之前的文章(K近邻(knn)算法是如何完成分类的?)已经介绍了knn算法的思想以及如何使...【详细内容】
2020-06-23  Tags: 分类算法  点击:(116)  评论:(0)  加入收藏
▌简易百科推荐
前言Kafka 中有很多延时操作,比如对于耗时的网络请求(比如 Produce 是等待 ISR 副本复制成功)会被封装成 DelayOperation 进行延迟处理操作,防止阻塞 Kafka请求处理线程。Kafka...【详细内容】
2021-12-27  Java技术那些事    Tags:时间轮   点击:(1)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  量子位    Tags:蒸馏法   点击:(11)  评论:(0)  加入收藏
分稀疏重建和稠密重建两类:稀疏重建:使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3:工程地址在: http://webdiis.unizar.es/~raulmur/orbslam/ DSO(Direct Sparse Odometry)因为...【详细内容】
2021-12-23  老师明明可以靠颜值    Tags:算法   点击:(7)  评论:(0)  加入收藏
1. 基本概念希尔排序又叫递减增量排序算法,它是在直接插入排序算法的基础上进行改进而来的,综合来说它的效率肯定是要高于直接插入排序算法的;希尔排序是一种不稳定的排序算法...【详细内容】
2021-12-22  青石野草    Tags:希尔排序   点击:(6)  评论:(0)  加入收藏
ROP是一种技巧,我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符,在本次getshell中,还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】
2021-12-15  星云博创    Tags:栈迁移   点击:(22)  评论:(0)  加入收藏
一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】
2021-12-15    晓掌柜丶韶华  Tags:排序算法   点击:(16)  评论:(0)  加入收藏
在了解golang的map之前,我们需要了解哈希这个概念。哈希表,又称散列表(Hash table),是根据键(key)而直接访问在内存储存位置的数据结构。也就是说,它通过计算出一个键值的函数,将...【详细内容】
2021-12-07  一棵梧桐木    Tags:哈希表   点击:(14)  评论:(0)  加入收藏
前面文章在谈论分布式唯一ID生成的时候,有提到雪花算法,这一次,我们详细点讲解,只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称,一般的雪花大约由10^19个水分子...【详细内容】
2021-11-17  小心程序猿QAQ    Tags:雪花算法   点击:(24)  评论:(0)  加入收藏
导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】
2021-11-04  华章科技    Tags:排序算法   点击:(40)  评论:(0)  加入收藏
这是我在网上找的资源的一个总结,会先给出一个我看了觉得还行的关于算法的讲解,再配上实现的代码: Original author: Bill_Hoo Original Address: http://blog.sina.com.cn/s/bl...【详细内容】
2021-11-04  有AI野心的电工和码农    Tags: KMP算法   点击:(36)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条