机器学习决策树实战演练

朱先忠 2023-03-29 原文

译者 | 朱先忠

审校 | 孙淑娟

机器学习中的决策树

现代机器学习算法正在改变我们的日常生活。例如，像BERT这样的大型语言模型正在为谷歌搜索提供支持，GPT-3正在为许多高级语言应用程序提供支持。

另一方面，今天构建复杂的机器学习算法比以往任何时候都容易得多。然而，无论机器学习算法有多么复杂，都属于把它们归纳为以下学习类别之一：

监督学习
无监督学习
半监督学习
强化学习

其实，决策树算是最古老的有监督的机器学习算法之一，可以解决广泛的现实问题。研究表明，决策树算法的最早发明可以追溯到1963年。

接下来，让我们深入研究一下这个算法的细节，看看为什么这类算法今天仍然广为流行。

什么是决策树？

决策树算法是一种流行的有监督机器学习算法，因为它处理复杂数据集的方法相对简单得多。决策树的名字来源于它们与“树”这种结构的相似性；树结构包括以节点和边缘形式存在的根、枝和叶等几个组成部分。它们用于决策分析，很像一个基于if-else的决策流程图，这些决策会产生所需的预测。决策树能够学习这些if-else决策规则，从而拆分数据集，最后生成树状数据模型。

决策树在分类问题的离散结果预测和回归问题的连续数值结果预测中得到了应用。多年来科学家们开发出了许多不同的算法，如CART、C4.5和ensemble算法，如随机森林和梯度增强树等。

剖析决策树的各个组成部分

决策树算法的目标是预测输入数据集的结果。树的数据集共划分为三种形式：属性、属性的值和要预测的种类。与任何监督学习算法一样，数据集被划分为训练集和测试集两种类型。其中，训练集定义了算法学习并应用于测试集的决策规则。

在聚集介绍决策树算法的步骤之前，让我们先来了解一下决策树的组成部分：

根节点：它是决策树顶部的起始节点，包含所有属性值。根节点根据算法学习到的决策规则分成决策节点。
分支：分支是对应于属性值的节点之间的连接器。在二进制拆分中，分支表示真路径和假路径。
决策节点/内部节点：内部节点是根节点和叶节点之间的决策节点，对应于决策规则及其答案路径。节点表示问题，分支显示基于这些问题的相关答案的路径。
叶节点：叶节点是表示目标预测的终端节点。这些节点不会进一步分裂。

以下是决策树及其上述组件的可视化表示，决策树算法经过以下步骤以达到所需的预测：

算法从具有所有属性值的根节点开始。
根节点根据算法从训练集中学习到的决策规则分成决策节点。
基于问题及其答案路径，通过分支/边缘传递内部决策节点。
继续前面的步骤，直到到达叶节点或使用了所有属性。

为了在每个节点上选择最佳属性，将根据以下两个属性选择度量之一进行拆分：

基尼系数（Gini index）测量基尼不纯度（Gini Impurity），以指示算法对随机类别标签进行错误分类的可能性。
信息增益测量分割后熵的改善，以避免预测类的50/50分割。熵是给定数据样本中不纯度的数学度量。决策树中的混沌状态由接近50/50的划分表示。

使用决策树算法的花卉分类案例

在了解了上述基础知识后，接下来让我们着手实现一个应用案例。在本文中，我们将使用Scikit学习库在Python中实现决策树分类模型。

关于数据集的简单说明

本教程的数据集是一个鸢尾花数据集。Scikit开源库中已经内置了这个数据集，所以不需要开发人员再从外部加载它。该数据集共包括四个鸢尾属性及相应的属性值，这些属性将被输入到模型中，以便预测三种类型的鸢尾花之一。

数据集中的属性/特征：萼片长度、萼片宽度、花瓣长度、花瓣宽度。
数据集中的预测标签/花卉类型：Setosis、Versicolor、Virginica。

接下来，将给出决策树分类器基于python语言实现的分步代码说明。

导入库

首先，通过下面的一段代码导入执行决策树实现所需的库。

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

加载鸢尾花（Iris）数据集

以下代码展示了使用load_iris函数加载存储到data_set变量中的sklearn.dataset库中的鸢尾花数据集。接下来的两行代码将实现打印鸢尾花类型和特征信息。

data_set = load_iris()
print('Iris plant classes to predict: ', data_set.target_names)
print('Four features of iris plant: ', data_set.feature_names)

分离属性和标签

下面的代码行实现了将花的特性和类型信息分离开来，并将它们存储在相应的变量中。其中，shape[0]函数负责确定存储在X_att变量中的属性数；数据集中的属性值总数为150。

#提取花的特性和类型信息
X_att = data_set.data
y_label = data_set.target
print('数据集中总的样本数：', X_att.shape[0])

其实，我们还可以创建一个可视化表格来展示数据集中的一部分属性值，方法是将X_att变量中的值添加到panda库中的DataFrame函数中即可。

data_view=pd.DataFrame({
    'sepal length':X_att[:,0],
    'sepal width':X_att[:,1],
    'petal length':X_att[:,2],
    'petal width':X_att[:,3],
    'species':y_label
})
data_view.head()

拆分数据集

以下代码展示了使用train_test_split函数将数据集拆分为训练集和测试集两部分。其中，此函数中的random_state参数用于为函数提供随机种子，以便在每次执行时为给定数据集提供相同的结果；test_size表示测试集的大小；0.25表示拆分后测试数据占25%而训练数据占75%。

#数据集拆分为训练集和测试集两部分
X_att_train, X_att_test, y_label_train, y_label_test = train_test_split(X_att, y_label, random_state = 42, test_size = 0.25)

应用决策树分类函数

下面的代码通过使用DecisionTreeClassifier函数创建一个分类模型来实现一棵决策树，分类标准设置为“entropy”方式。该标准能够将属性选择度量设置为信息增益（Information gain）。然后，代码将模型与我们的属性和标签训练集相匹配。

#应用决策树分类器
clf_dt = DecisionTreeClassifier(criterion = 'entropy')
clf_dt.fit(X_att_train, y_label_train)

计算模型精度

下面的代码负责计算并打印决策树分类模型在训练集和测试集上的准确性。为了计算准确度分数，我们使用了predict函数。测试结果是：训练集和测试集的准确率分别为100%和94.7%。

print('Training data accuracy: ', accuracy_score(y_true=y_label_train, y_pred=clf_dt.predict(X_att_train)))
print('Test data accuracy: ', accuracy_score(y_true=y_label_test, y_pred=clf_dt.predict(X_att_test)))

真实世界中的决策树应用程序

当今社会，机器学习决策树在许多行业的决策过程中都得到广泛应用。其中，决策树的最常见应用首先是在金融和营销部门，例如可用于如下一些子领域：

贷款批准
支出管理
客户流失预测
新产品的可行性分析，等等。

如何改进决策树？

作为本文决策树主题讨论的总结，我们有充分的理由安全地假设：决策树的可解释性仍然很受欢迎。决策树之所以容易理解，是因为它们可以被人类以可视化方式展现并便于解释。因此，它们是解决机器学习问题的直观方法，同时也能够确保结果是可解释的。机器学习中的可解释性是我们过去讨论过的一个小话题，它也与即将到来的人工智能伦理主题存在密切联系。

与任何其他机器学习算法一样，决策树自然也可以加以改进，以避免过度拟合和出现过于偏向于优势预测类别。剪枝和ensembling技术是克服决策树算法缺点方案最常采用的方法。决策树尽管存在这些缺点，但仍然是决策分析算法的基础，并将在机器学习领域始终保持重要位置。

译者介绍

朱先忠，51CTO社区编辑，51CTO专家博客、讲师，潍坊一所高校计算机教师，自由编程界老兵一枚。

原文标题：An Introduction to Decision Trees for Machine Learning，作者：Stylianos Kampakis

机器学习机器 span style font-size 人工智能$机器学习机器学习$案发$决策树

有关机器学习决策树实战演练的更多相关文章

ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
微信小程序开发入门与实战（Behaviors使用） - 2
@作者:SYFStrive @博客首页:HomePage📜：微信小程序📌：个人社区（欢迎大佬们加入）👉：社区链接🔗📌：觉得文章不错可以点点关注👉：专栏连接🔗💃：感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序（🔥）目录自定义组件-behaviors 1、什么是behaviors 2、behaviors的工作方式 3、创建behavior 4、导入并使用behavior 5、behavior中所有可用的节点 6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors 1、什么是behaviorsbehaviors是小程序中，用于实现
ruby - 我的 Ruby IRC 机器人没有连接到 IRC 服务器。我究竟做错了什么？ - 2
require"socket"server="irc.rizon.net"port="6667"nick="RubyIRCBot"channel="#0x40"s=TCPSocket.open(server,port)s.print("USERTesting",0)s.print("NICK#{nick}",0)s.print("JOIN#{channel}",0)这个IRC机器人没有连接到IRC服务器，我做错了什么？最佳答案失败并显示此消息::irc.shakeababy.net461*USER:Notenoughparame
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞