您当前的位置：首页 > 电脑百科 > 程序开发 > 算法

随机森林算法是如何在内部工作的

时间：2020-08-31 11:03:32 来源：作者：

+ 加入收藏

这篇文章是关于什么的

在本文中，我们将了解随机森林算法是如何在内部工作的。为了真正理解它，了解一下决策树分类器可能会有帮助。但这并不完全是必需的。

注意：我们不涉及建模中涉及的预处理或特征工程步骤，只查看当我们使用sklearn的RandomForestClassifier包调用.fit()和.transform()方法时，算法中会发生什么。

随机森林

随机森林是一种基于树的算法。它是多种不同种类的随机树的集合。模型的最终值是每棵树产生的所有预测/估计的平均值。

包

我们将以sklearn的RandomForestClassifier为基础

sklearn.ensemble.RandomForestClassifier

数据

为了说明这一点，我们将使用下面的训练数据。

注：年龄、血糖水平、体重、性别、吸烟，... f98、f99都是自变量或特征。

糖尿病(Diabetic)是我们必须预测的y变量/因变量。

内部到底发生了什么

有了这些基本信息，让我们开始并理解我们将这个训练集传递给算法会发生什么…

步骤1-BootstrApping

一旦我们将训练数据提供给RandomForestClassifier模型，它（该算法）会随机选择一组行。这个过程称为Bootstrapping。对于我们的示例，假设它选择m个记录。

注意- 要选择的行数可由用户在超参数- max_samples中提供）

注意- 一行可能被多次选中

步骤2-为子树选择特征

现在，RF随机选择一个子集的特征/列。为了简单起见，我们选择了3个随机特征。

注意，在你的超参数max_features中你可以控制这个数字，例如下面的代码

import sklearn.ensemble.RandomForestClassifier
my_rf = RandomForestClassifier(max_features=8)

步骤3-选择根节点

一旦选择了3个随机特征，算法将对m个记录（从步骤1开始）进行决策树的拆分，并快速计算度量值。

这个度量可以是gini，也可以是熵。

criterion = 'gini' #( or 'entropy' . default= 'gini’ )

选取基尼/熵值最小的随机特征作为根节点。

记录在此节点的最佳拆分点进行拆分。

步骤4-选择子节点

该算法执行与步骤2和步骤4相同的过程，并选择另一组3个随机特征。（3是我们指定的数字-你可以选择你喜欢的-或者让算法来选择最佳数字）

它根据条件（gini/熵），选择哪个特征将进入下一个节点/子节点，然后在这里进一步分割。

步骤5-进一步拆分并创建子节点

继续选择特征（列）以选择其他子节点

此过程继续（步骤2、4）选择随机特征并拆分节点，直到出现以下任一情况

a）已用完要拆分的行数
b）拆分后的基尼/熵没有减少

现在你有了第一个“迷你决策树”。

使用随机选择的行（记录）和列（特征）创建的第一个迷你决策树

第6步-创建更多迷你决策树

算法返回到你的数据并执行步骤1-5以创建第二个“迷你树”

这是我们使用另一组随机选择的行和列创建的第二个迷你树

第7步-树成林

一旦达到默认值100棵树（现在有100棵迷你决策树），模型就完成了fit()过程。

注意你可以指定要在超参数中生成的树的数量（n_estimators）

import sklearn.ensemble.RandomForestClassifier
my_rf = RandomForestClassifier(n_estimators=300)

现在你有一个由随机创建的迷你树组成的森林（因此得名Random Forest）

第7步-推理

现在让我们预测一个看不见的数据集（测试数据集）中的值

为了推断（通常称为预测/评分）测试数据，该算法将记录传递到每个迷你树中。

记录中的值根据每个节点表示的变量遍历迷你树，最终到达一个叶节点。基于该记录结束的叶节点的值（在训练期间决定的），该迷你树被分配一个预测输出。

类似地，相同的记录经过所有的100个小决策树，并且每100个树都有一个预测输出。这个记录的最终预测值是通过对这100棵小树的简单投票来计算的。

现在我们有了对单个记录的预测。

该算法按照相同的过程迭代测试集的所有记录，并计算总体精度！

迭代获得测试集每一行的预测的过程，以达到最终的精度。

参考文献

[1] sklearn’s documentation for RandomForestClassifier ( version : 3.2.4.3.1)

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

Tags：随机森林算法点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

随机森林算法是如何在内部工作的

这篇文章是关于什么的在本文中，我们将了解随机森林算法是如何在内部工作的。为了真正理解它，了解一下决策树分类器可能会有帮助。但这并不完全是必需的。注意：我们不涉及建模...【详细内容】

2020-08-31　　Tags: 随机森林算法点击:(77)　　评论:(0)　　加入收藏

随机森林算法

本次主题是随机森林，杰里米(讲师)提供了一些基本信息以及使用Jupyter Notebook的提示和技巧。 Jeremy谈到的一些重要的事情是，数据科学并不等同于软件工程。在数据科学中，我们...【详细内容】

2019-11-07　　Tags: 随机森林算法点击:(82)　　评论:(0)　　加入收藏

▌简易百科推荐

如何从 Kafka 看时间轮算法设计

前言Kafka 中有很多延时操作，比如对于耗时的网络请求（比如 Produce 是等待 ISR 副本复制成功）会被封装成 DelayOperation 进行延迟处理操作，防止阻塞 Kafka请求处理线程。Kafka...【详细内容】

2021-12-27　　Java技术那些事　　　　Tags:时间轮　点击:(1)　　评论:(0)　　加入收藏

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

博雯发自凹非寺量子位报道 | 公众号 QbitAI在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。这就...【详细内容】

2021-12-24　　量子位　　　　Tags:蒸馏法　点击:(9)　　评论:(0)　　加入收藏

定位以及地图重建算法汇总

分稀疏重建和稠密重建两类：稀疏重建：使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3：工程地址在： http://webdiis.unizar.es/~raulmur/orbslam/ DSO（Direct Sparse Odometry）因为...【详细内容】

2021-12-23　　老师明明可以靠颜值　　　　Tags:算法　点击:(7)　　评论:(0)　　加入收藏

图解希尔排序，超详细非常好理解

1. 基本概念希尔排序又叫递减增量排序算法，它是在直接插入排序算法的基础上进行改进而来的，综合来说它的效率肯定是要高于直接插入排序算法的；希尔排序是一种不稳定的排序算法...【详细内容】

2021-12-22　　青石野草　　　　Tags:希尔排序　点击:(6)　　评论:(0)　　加入收藏

ROP和栈迁移的探究

ROP是一种技巧，我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符，在本次getshell中，还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】

2021-12-15　　星云博创　　　　Tags:栈迁移　点击:(19)　　评论:(0)　　加入收藏

一起学排序算法 - 冒泡排序

一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】

2021-12-15　　　　晓掌柜丶韶华　　Tags:排序算法　点击:(16)　　评论:(0)　　加入收藏

哈希表原理

在了解golang的map之前，我们需要了解哈希这个概念。哈希表，又称散列表(Hash table)，是根据键(key)而直接访问在内存储存位置的数据结构。也就是说，它通过计算出一个键值的函数，将...【详细内容】

2021-12-07　　一棵梧桐木　　　　Tags:哈希表　点击:(13)　　评论:(0)　　加入收藏

面试官：讲讲雪花算法，越详细越好

前面文章在谈论分布式唯一ID生成的时候，有提到雪花算法，这一次，我们详细点讲解，只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称，一般的雪花大约由10^19个水分子...【详细内容】

2021-11-17　　小心程序猿QAQ　　　　Tags:雪花算法　点击:(24)　　评论:(0)　　加入收藏

终于有人把排序算法讲明白了

导读：在大数据时代，对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要，因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时，需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】

2021-11-04　　华章科技　　　　Tags:排序算法　点击:(37)　　评论:(0)　　加入收藏

字符串查找之 KMP算法

这是我在网上找的资源的一个总结，会先给出一个我看了觉得还行的关于算法的讲解，再配上实现的代码： Original author: Bill_Hoo Original Address： http://blog.sina.com.cn/s/bl...【详细内容】

2021-11-04　　有AI野心的电工和码农　　　　Tags: KMP算法　点击:(36)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为

随机森林算法