机器学习中的七种分类算法

在将任何统计算法应用于数据集之前，我们必须彻底了解输入变量和输出变量。在分类问题中，目标总是定性的，但有时，甚至输入值也可以是分类的，例如著名的 Mall Customer Dataset 中客户的性别。由于分类算法是从数学上推导出来的，因此必须将所有变量转换为数值。分类算法工作的第一步是确保变量，无论是输入还是输出，都已正确编码。

4 创建测试集和训练集

处理完数据集后，下一步是将数据集分为两部分：测试数据集和训练数据集。这一步允许使用训练数据集让我们的机器学习输入和输出值之间的模式。另一方面，测试数据集测试模型的准确性，我们将尝试将其放入我们的数据集中。

5 选择模型

一旦我们将数据集拆分为训练和测试，下一个任务就是选择最适合我们问题的模型。为此，我们需要了解流行的分类算法。因此，让我们深入研究不同类型的分类算法池并探索我们的选择。

6 分类算法的类型

以下是您将了解的不同类型分类算法的列表：

朴素贝叶斯分类器
逻辑回归
决策树
随机森林
支持向量机
K-最近邻
K-均值聚类

6.1 朴素贝叶斯分类器

朴素贝叶斯分类器，最简单有效的分类算法之一。它的基础是贝叶斯定理，它描述了如何根据可能与事件相关的条件的先验知识来评估事件的概率。在数学上，这个定理指出——

$\text{P}\left ( Y|X\right )=\frac{P\left ( X|Y\right )P\left ( Y\right )}{P\left ( X\right )}$

其中 P(Y|X) 是事件 Y 的概率，假设 X 已经发生。

P(X) 是事件 X 的概率，

P(Y) 是事件 Y 的概率，

P(X|Y) 是给定 Y 的固定值时事件 X 的可能性。

如果 X 代表一个特征变量，Y 代表一个目标变量，那么贝叶斯分类器会将该标签分配给产生最高概率的特征。为简单起见，考虑一个二分类问题，其中特征变量只能有两个可能的值，Y=1 或 Y=0。然后，如果 Pr(Y=1|X=x0) > 0.5，贝叶斯分类器将预测类别 1，否则预测类别 2。

在不止一个特征的情况下，我们可以使用以下公式来评估概率，

$P\left ( Y|X_{1}=x_{1},X_{2}=x_{2} \right )=\frac{P\left ( X_{1}=x_{1},X_{2} =x_{2}|Y \right )P\left ( Y \right )}{P\left ( X_{1}=x_{1},X_{2}=x_{2} \right )}$

我们假设两个特征 X1 和 X2 是相互独立的。事实上，由于这个假设，“朴素”这个词被附加到贝叶斯的分类器上。

6.1.1 优点

它很简单，实现也很简单。
机器使用这个分类器学习模式所需的时间更少。
它在输入变量具有分类值的情况下表现良好。
它为复杂的现实世界问题提供了良好的结果。
它在多类分类的情况下表现良好。

6.1.2 缺点

它假设特征变量之间的独立性，但情况并非总是如此。
我们经常将其称为坏估计，因此概率并不总是很重要。
如果在训练期间模型不知道任何分类变量并且该变量在测试期间通过，则模型分配 0（零）似然并因此替换称为“零频率”的零概率。可以通过使用平滑程序（例如拉普拉斯估计）来避免这种情况。

6.1.3 应用

垃圾邮件分类： 根据电子邮件的内容识别电子邮件是否为垃圾邮件
实时预测系统： 该模型相对较快，因此可以实时预测目标变量。
情绪分析： 识别产品的反馈并将其分类为“正面”或“负面”。
多类预测： 朴素贝叶斯适用于多类分类问题。

6.2 逻辑回归

该算法类似于贝叶斯分类器，因为它也预测 Y 与输入变量 X 相关联的概率。它使用逻辑函数，

$P\left ( X \right )=\frac{e^{\beta _{0}+\beta _{1}X}}{1+e^{\beta _{0}+\beta _{1}X}}$

并使用最大似然技术拟合参数 ð??›ƒ0 和 ð??›ƒ1。该技术涉及最大化由下式给出的似然函数

$l\left ( \beta _{0},\beta _{1} \right )=\prod_{l:y_{i}=1}p\left ( x_{i} \right )\prod_{{l}':y_{{i}'}=1}\left ( 1-p\left ( x_{i} \right ) \right )$

在评估这两个参数后，可以轻松地使用逻辑函数来预测给定输入 xi 的目标变量概率 p(xi)。

对于不止一个特征变量（X1, X2,..., XP），公式可以概括为

$P\left ( X \right )= \frac{e^{\beta _{0}+\beta _{1}X_{1}+\cdots+\beta _{p}X_{p}}}{1+{e^{\beta _{0}+\beta _{1}X_{1}+\cdots+\beta _{p}X_{p}}}$

6.2.1 优点

这是一个简单的模型，因此训练所需的时间很少。
它可以处理大量的特征。

6.2.2 缺点

虽然它的名字中有回归这个词，但我们只能将它用于分类问题，因为它的范围总是在 0 和 1 之间。
只能用于二分类问题，对多分类问题响应较差

6.2.3 应用

信用评分： 根据年收入、账户余额等一些特征来预测个人的信用（偿还借入贷款的能力）。
预测用户行为： 许多网站使用逻辑回归来预测用户行为并引导他们点击可能感兴趣的链接。
离散选择分析： 逻辑回归是预测人们分类偏好的绝佳选择。这方面的例子可能是买哪辆车、上哪所学校或大学等，这取决于人们的属性和他们可用的各种选择。

6.3 决策树分类算法

该算法涉及根据数据集中的某些特征变量将数据集划分为多个段。这些划分的阈值通常是各自特征变量的平均值或众数（如果它们是数字）。由于树可以表示用于分割数据集的一组分割规则，因此该算法称为决策树。

查看下面的示例以更好地理解它。

红色文本表示如何根据输出变量将数据集拆分为多个段。结果是具有最高比例的班级。

现在，很自然要问的问题是该算法使用什么标准来分割数据。有两种广泛使用的度量来测试分割的纯度（如果数据集的片段只有一个类的数据点，则它是纯的）。

第一个是定义的基尼指数

$G= -\sum_{k=1}^{k}p_{mk}\left ( 1-p_{mk} \right )$

测量 N 个类别的总方差。另一种度量是交叉熵，定义为

$D= -\sum_{k=1}^{k}p_{mk}\log \left ( p_{mk} \right )$

在两个等式中，pmk 表示第 m 个片段中属于第 k 个类别的训练变量的比例。

我们根据该特征将数据集拆分为多个段，从而产生熵或基尼指数的最小值。

6.3.1 优点

该算法允许数据的简单表示。因此，更容易向高管解释和解释它。
决策树模仿人类在日常生活中做出决策的方式。
他们顺利处理定性目标变量。
它们有效地处理非线性数据。

6.3.2 缺点

它们可能会创建有时变得无关紧要的复杂树。
与其他算法相比，它们的预测精度水平不同。

6.3.3 应用

情感分析：它用作文本挖掘中的分类算法，以确定客户对产品的情感。
产品选择：公司可以使用决策树来了解哪种产品在推出时会给他们带来更高的利润。

6.4 随机森林分类算法

森林由大量的树木组成。同样，随机森林涉及处理许多决策树。每棵树预测目标变量的概率值。然后我们对产生最终输出的概率进行平均。

我们评估每棵树如下：

通过选择有替换的数据点来创建数据集的第一个样本。
接下来，我们不使用所有输入变量来创建决策树。我们只使用可用的一个子集。
每棵树都被允许长到尽可能大的长度，并且不涉及修剪。

6.4.1 优点

对于大型数据集，它是有效的。
它允许估计输入变量在分类中的重要性。
它比决策树更准确。

6.4.2 缺点

在实施方面更为复杂，因此需要更多时间进行评估。

6.4.3 应用

信用卡违约： 信用卡公司使用随机森林来预测持卡人是否会违约。
股票市场预测： 股票投资者使用它来指示特定股票的趋势并分析其损失和利润。
产品推荐： 可以根据用户的喜好使用它向用户推荐产品。

6.5 支持向量机

该算法利用具有令人兴奋的变化的支持向量分类器，使其适用于评估非线性决策边界。通过使用称为kernels 的特殊函数扩大特征变量空间，这成为可能。该算法考虑的决策边界允许将特征变量标记为目标变量。它用于评估边界的数学函数由下式给出

$f\left ( x \right )= \beta _{0}-\sum_{i \in s }\alpha _{i}K\left ( x,x_{i} \right )$

其中 K 代表核函数。

6.5.1 优点

它使训练数据集变得容易。
当数据是高维时，它表现良好。

6.5.2 缺点

当数据包含噪声元素时，它表现不佳。
它对核函数很敏感，因此必须明智地选择它们。

6.5.3 应用

人脸检测： 用于读取图像（像素数数组）并根据通常的人类特征识别是否包含人脸。
图像分类： SVM 是用于根据图像特征对图像进行分类的图像分类算法之一。
手写字符识别： 我们可以用它来识别手写字符。

6.6 K最近邻分类算法

KNN 算法通过识别给定观察点的 K 个最近邻居来工作。然后它使用 K 个点评估每种类型的目标变量的比例，然后预测具有最高比例的目标变量。例如，考虑以下情况，我们必须将目标值标记为点 X。然后，如果我们在它周围取四个邻居，该模型将预测该点属于粉红色的类。

6.6.1 优点

可以将其应用于任何分布的数据集。
它很容易理解并且非常直观。

6.6.2 缺点

它很容易受到异常值的影响。
它偏向于在数据集中具有更多实例的类。
有时很难找到 K 的最佳数字。

6.6.3 应用

检测异常值： 由于该算法对异常值很敏感，因此可以检测异常值。
识别相似文档： 识别语义相似的文档。

6.7 K-Means聚类算法

K-Means Clustering 是一种将数据集划分为 K 个不重叠的组的聚类算法。该算法的第一步是指定预期的簇数 K。然后，任务是将数据集划分为 K 个簇，以使簇内变化尽可能小。算法过程如下：

为每个输入变量随机分配一个从 1 到 K 的数字。这些是变量的初始聚类标签。
重复该步骤，直到集群分配保持不变：
为 K 个集群中的每一个评估集群质心。
将每个输入变量集分配给质心最近的簇（这里最接近可以用欧氏距离来定义）

总之，该算法最小化输入点与相应聚类质心之间的偏差平方和。将其命名为 K 均值聚类的原因是步骤 2a) 将属于特定聚类的观测值的均值评估为聚类质心。

6.7.1 优点

我们可以将其应用于大型数据集。
实施起来毫不费力。
它保证了定位集群的收敛性。

6.7.2 缺点

它有一个限制，因为必须首先提供 K 的值。
它对异常值很敏感。

6.7.3 应用

添加推荐： 公司可以识别共享金钱消费习惯的客户群，并展示他们更有可能购买的广告。
识别城市中的犯罪区域： 使用 K 均值聚类，我们可以识别更容易发生犯罪案件的区域。
文档分类： 识别写在类似主题上的文档

7 如何决定选择哪种分类算法

下面我们有一个列表，可以帮助您了解应该使用哪些分类算法来解决业务问题。

问题识别： 首先要做的是彻底了解手头的任务。如果是有监督的分类案例，可以使用逻辑回归、随机森林、决策树等算法。另一方面，如果是无监督的分类案例，则应该使用聚类算法。
数据集 的大小：数据集的大小也是您在选择算法时应该考虑的一个参数。由于很少有算法相对较快，因此最好切换到那些算法。如果数据集的大小很小，您可以坚持使用像朴素贝叶斯这样的低偏差/高方差算法。相反，如果数据集很大，特征数量很多，那么你应该使用高偏差/低方差算法，如 KNN、决策树和 SVM。
预测准确度： 模型的准确度是测试分类器好坏的参数。它反映了预测输出值与正确输出值的匹配程度。当然，更高的精度是可取的，但还应检查模型是否过拟合。
训练时间： 有时，像 SVM 和随机森林这样的复杂算法可能会占用大量计算时间。此外，更高的准确性和大数据集无论如何需要更多时间来学习模式。像逻辑回归这样的简单算法更容易实现并节省时间。
数据集的线性： 输入变量和目标变量之间并不总是存在线性关系。因此，必须分析这种关系并仔细选择算法，因为其中一些仅限于线性数据集。检查线性的最佳方法是拟合线性线或运行逻辑回归或 SVM 并查找残差。较高的误差表明数据是非线性的，需要实施复杂的算法。
特征数量： 有时，数据集可能包含不必要的许多特征，并且并非所有特征都相关。然后可以使用最适合这种情况的 SVM 等算法，或者使用主成分分析来确定哪些特征是重要的。

机器学习机器 style xff0c xff 分类人工智能

有关机器学习中的七种分类算法的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只
ruby-on-rails - active_admin 目录中的常量警告重新声明 - 2
我正在使用active_admin，我在Rails3应用程序的应用程序中有一个目录管理，其中包含模型和页面的声明。时不时地我也有一个类，当那个类有一个常量时，就像这样:classFooBAR="bar"end然后，我在每个必须在我的Rails应用程序中重新加载一些代码的请求中收到此警告:/Users/pupeno/helloworld/app/admin/billing.rb:12:warning:alreadyinitializedconstantBAR知道发生了什么以及如何避免这些警告吗？最佳答案在纯Ruby中:classA