图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）

ShowMeAI 2024-04-25 原文

作者：韩信子@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/34
本文地址：https://www.showmeai.tech/article-detail/191
声明：版权所有，转载请联系平台与作者并注明出处

引言

随机森林是一种由决策树构成的（并行）集成算法，属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能，同时也有很好的稳定性，广泛应用在各种业务场景中。

随机森林有如此优良的表现，主要归功于「随机」和「森林」，一个使它具有抗过拟合能力，一个使它更加精准。我们会在下文中做更详细的展开讲解。

（本篇部分内容涉及到机器学习基础知识、决策树、回归树算法，没有先序知识储备的宝宝可以查看ShowMeAI的文章图解机器学习 | 机器学习基础知识、决策树模型详解及回归树模型详解）。

1.集成学习

1）集成学习

学习随机森林，我们需要先了解一些概念，比如第1个大家要了解的概念是集成学习（ensemble learning）：

对于训练数据集，我们训练一系列「个体学习器」，再通过「结合策略」将它们集成起来，形成一个更强的学习器，这就是「集成学习」在做的事情，内核思想类似「三个臭皮匠，顶个诸葛亮」。

2）个体学习器

个体学习器是相对于集成学习来说的，其实我们在之前了解到的很多模型，比如C4.5决策树算法、逻辑回归算法、朴素贝叶斯算法等，都是个体学习器。

若集成中只包含同种类型的个体学习器，叫做「同质」集成，个体学习器称作「基学习器」。例如随机森林中全是决策树集成。
若集成中包含不同类型的个体学习器，叫做「异质」集成，个体学习器称作「组件学习器」。例如同时包含决策树和神经网络进行集成。

个体学习器代表的是单个学习器，集成学习代表的是多个学习器的结合。

3）集成学习核心问题

（1）使用什么样的个体学习器？

个体学习器不能太「弱」，需要有一定的准确性。
个体学习器之间要具有「多样性」，即存在差异性。

（2）如何选择合适的结合策略构建强学习器？

并行组合方式，例如随机森林。
传统组合方式，例如boosting树模型。

2.Bagging

我们在这里讲到的随机森林是并行集成模型，而Bagging是并行式集成学习方法最著名的代表。

1）Bootstrap Sampling

要理解bagging，首先要了解自助采样法（Bootstrap Sampling）：

给定包含 $m$ 个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中。
上述过程重复 $m$ 轮，我们得到 $m$ 个样本的采样集，初始训练集中有的样本在采样集中多次出现，有的则从未出现，约63.2%的样本出现在采样集中，而未出现的约36.8%的样本可用作验证集来对后续的泛化性能进行「包外估计」。

2）Bagging

Bagging是Bootstrap aggregating的缩写，是在Boostrap Sampling基础上构建的，上述的采样过程我们可以重复 $T$ 次，采样出 $T$ 个含 $m$ 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，然后将这些基学习器进行结合。

在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法，这就是Bagging的基本流程。

从「偏差-方差分解」的角度看，Bagging主要关注降低方差，因此它在不剪枝的决策树、神经网络等易受到样本扰动的学习器上效用更明显。

3.随机森林算法

1）随机森林算法介绍

Random Forest（随机森林，简称RF）是一种基于树模型的Bagging的优化版本。核心思想依旧是Bagging，但是做了一些独特的改进——RF使用了CART决策树作为基学习器。具体过程如下：

输入为样本集 $D=\left\{\left(x, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{m}, y_{m}\right)\right\}$
对于 $t = 1, 2, ..., T$ ：
- 对训练集进行第 $t$ 次随机采样，共采集 $m$ 次，得到包含 $m$ 个样本的采样集 $D_T$ 。
- 用采样集 $D_T$ 训练第 $T$ 个决策树模型 $G_{T} (x)$ ，在训练决策树模型的节点的时候，在节点上所有的样本特征中选择一部分样本特征，在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分。
分类场景，则 $T$ 个基模型（决策树）投出最多票数的类别为最终类别。

2）随机森林核心特点

随机森林核心点是「随机」和「森林」，也是给它带来良好性能的最大支撑。

「随机」主要体现在两个方面：

样本扰动：直接基于自助采样法（Bootstrap Sampling），使得初始训练集中约63.2%的样本出现在一个采样集中。并带来数据集的差异化。
属性扰动：在随机森林中，对基决策树的每个结点，先在该结点的特征属性集合中随机选择k个属性，然后再从这k个属性中选择一个最优属性进行划分。这一重随机性也会带来基模型的差异性。

「集成」体现在：根据多个（差异化）采样集，训练得到多个（差异化）决策树，采用简单投票或者平均法来提高模型稳定性和泛化能力。

3）随机森林决策边界可视化

下面是对于同一份数据集（iris数据集），我们使用决策树和不同树棵树的随机森林做分类的结果，我们对其决策边界做了可视化。

可以很明显地看到，随着随机森林中决策树数量的增多，模型的泛化能力逐渐增强，决策边界越来越趋于平滑（受到噪声点的影响越来越小）。

4）随机森林算法优点

下面我们来总结一下随机森林的优缺点：

（1）随机森林优点

对于高维（特征很多）稠密型的数据适用，不用降维，无需做特征选择。
构建随机森林模型的过程，亦可帮助判断特征的重要程度。
可以借助模型构建组合特征。
并行集成，有效控制过拟合。
工程实现并行简单，训练速度快。
对于不平衡的数据集友好，可以平衡误差。
对于特征确实鲁棒性强，可以维持不错的准确度。

（2）随机森林缺点

在噪声过大的分类和回归数据集上还是可能会过拟合。
相比单一决策树，因其随机性，模型解释会更复杂一些。

4.影响随机森林的参数与调优

上面我们已经系统了解了随机森林的原理与机制，下面我们一起来看看工程应用实践中的一些重点，比如随机森林模型有众多可调参数，它们有什么影响，又如何调优。

1）核心影响参数

（1）生成单颗决策树时的特征数（max_features）

增加max_features一般能提高单个决策树模型的性能，但降低了树和树之间的差异性，且可能降低算法的速度。
太小的max_features会影响单颗树的性能，进而影响整体的集成效果。
需要适当地平衡和选择最佳的max_features。

（2）决策树的棵树（n_estimators）

较多的子树可以让模型有更好的稳定性和泛化能力，但同时让模型的学习速度变慢。
我们会在计算资源能支撑的情况下，选择稍大的子树棵树。

（3）树深（max_depth）

太大的树深，因为每颗子树都过度学习，可能会有过拟合问题。
如果模型样本量多特征多，我们会限制最大树深，提高模型的泛化能力。

2）参数调优

（1）RF划分时考虑的最大特征数（max_features）

总数的百分比，常见的选择区间是[0.5, 0.9]。

（2）决策树的棵树（n_estimators）

可能会设置为>50的取值，可根据计算资源调整。

（3）决策树最大深度（max_depth）

常见的选择在4-12之间。

（4）内部节点再划分所需最小样本数（min_samples_split）

如果样本量不大，不需要调整这个值。
如果样本量数量级非常大，我们可能会设置这个值为16，32，64等。

（5）叶子节点最少样本数（min_samples_leaf）

为了提高泛化能力，我们可能会设置这个值>1。

更多监督学习的算法模型总结可以查看ShowMeAI的文章 AI知识技能速查 | 机器学习-监督学习。

视频教程

可以点击 B站查看视频的【双语字幕】版本

【双语字幕+资料下载】MIT 6.036 | 机器学习导论(2020·完整版)

双语字幕+资料下载】MIT 6.036 | 机器学习导论(2020·完整版)

https://www.bilibili.com/video/BV1y44y187wN?p=12

ShowMeAI图解机器学习算法系列（完整版）

ShowMeAI系列教程精选推荐

通关图解 span class xff 机器学习随机森林分类算法人工智能

有关图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）的更多相关文章

ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我的 Ruby IRC 机器人没有连接到 IRC 服务器。我究竟做错了什么？ - 2
require"socket"server="irc.rizon.net"port="6667"nick="RubyIRCBot"channel="#0x40"s=TCPSocket.open(server,port)s.print("USERTesting",0)s.print("NICK#{nick}",0)s.print("JOIN#{channel}",0)这个IRC机器人没有连接到IRC服务器，我做错了什么？最佳答案失败并显示此消息::irc.shakeababy.net461*USER:Notenoughparame
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
Ruby 和指南针路径与 yeoman 项目 - 2
我安装了ruby、yeoman，当我运行我的项目时，出现了这个错误:Warning:Running"compass:dist"(compass)taskWarning:YouneedtohaveRubyandCompassinstalledthistasktowork.Moreinfo:https://github.com/gruUse--forcetocontinue.Use--forcetocontinue.我有进入可变session目标的路径，但它不起作用。谁能帮帮我？最佳答案我必须运行这个:geminstallcom
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG

图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）

引言

1.集成学习

1）集成学习

2）个体学习器

3）集成学习核心问题

（1）使用什么样的个体学习器？

（2）如何选择合适的结合策略构建强学习器？

2.Bagging

1）Bootstrap Sampling

2）Bagging

3.随机森林算法

1）随机森林算法介绍

2）随机森林核心特点

3）随机森林决策边界可视化

4）随机森林算法优点

（1）随机森林优点

（2）随机森林缺点

4.影响随机森林的参数与调优

1）核心影响参数

（1）生成单颗决策树时的特征数（max_features）

（2）决策树的棵树（n_estimators）

（3）树深（max_depth）

2）参数调优

（1）RF划分时考虑的最大特征数（max_features）

（2）决策树的棵树（n_estimators）

（3）决策树最大深度（max_depth）

（4）内部节点再划分所需最小样本数（min_samples_split）

（5）叶子节点最少样本数（min_samples_leaf）

视频教程

ShowMeAI图解机器学习算法系列（完整版）

ShowMeAI系列教程精选推荐

有关图解机器学习算法(7) | 随机森林分类模型详解（机器学习通关指南·完结）的更多相关文章

随机推荐