- 🌸个人主页:JoJo的数据分析历险记
- 📝个人介绍:统计学top3研究生
- 💌如果文章对你有帮助,欢迎✌
关注、👍点赞、✌收藏、👍订阅专栏
如果我们希望使用机器学习来解决需要预测分类结果的业务问题,我们可以使用以下分类算法。
分类算法是用于预测输入数据属于哪个类别的机器学习方法。是一种监督的学习任务,这意味着它们需要带有标记的训练样本。
使用情景
根据症状、实验室结果和历史诊断预测临床诊断
使用索赔金额、药物倾向、疾病和提供者等数据预测医疗保健索赔是否具有欺诈性
常见的分类算法:
以下是用于预测分类结果的最常用算法的介绍:支持向量机、朴素贝叶斯、逻辑回归、决策树和神经网络 我们将探讨各个算法的基本概念和优缺点
如果在 n 维空间(其中 n 是特征的数量)中绘制数据,支持向量机 (SVM) 会尝试拟合最能区分类别的超平面。当你有一个新的数据点时,它相对于超平面的位置将预测该点属于哪个类别。

优点
缺点
朴素贝叶斯假设所有特征都是独立的,它们独立地贡献于目标变量类别的概率;这并不总是正确的,这就是为什么它被称为“朴素”。概率和似然值是根据它们在数据中出现的频率以及使用贝叶斯定理的公式计算的最终概率来计算的。
优点:
缺点:
如果变量之间存在显着依赖性(即不满足独立性 ,现实中往往很难满足),则其效果会受到影响
如果一个出现在测试数据中的类没有出现在训练数据中,它的概率为零。对数据有一定的要求
逻辑回归预测二元结果的概率。如果新观察的概率高于设定的阈值,则预测其在该类中。对于有多个类的场景,有一些方法可以使用逻辑回归。
优点 :
缺点 :

决策树学习如何最好地(信息增益最大)将数据集拆分为单独的分支,使其能够学习非线性关系。
随机森林 (RF) 和梯度提升树 (GBT) 是两种树算法,它们构建许多单独的树,汇集它们的预测。当他们使用融合的结果来做出最终决定时,被称为“集成模型”(Ensembel model)。
优点:
缺点:
神经网络可以使用对数据进行数学转换的神经元层来学习复杂的模式。输入和输出之间的层称为“隐藏层”。神经网络可以学习其他算法无法轻易发现的特征之间的关系。所以我觉得神经网络最主要的就是在做特征提取
优点:
缺点:
接下来我们来看看如何通过sklearn实现上述各种分类方法
简单演示如何使用 scikit-learn 构建常见的分类器。使用 178 种葡萄酒及其各种属性的数据集。数据中有三种不同的葡萄酒类别,目标是根据属性预测葡萄酒类别。数据取自 UCI 机器学习存储库,可在https://archive.ics.uci.edu/ml/datasets/Wine找到。
因为原始数据没有标题。第一列是我们希望预测的类,其余的属性我们将用作特征:
数据导入
import pandas as pd
import numpy as np
我们读入我们保存的数据,传递列名
wine = pd.read_csv(r"C:\Users\DELL\AppData\Roaming\Microsoft\Windows\Network Shortcuts\wine.data",
names=["class", "alcohol", "malic_acid", "ash", "alcalinity_of_ash", "magnesium", "total_phenols","flavanoids", "nonflavanoid_phenols", "proanthocyanins", "color_intensity", "hue", "od280_od315_of_diluted_wines", "proline"])
让我们看看前几行数据
wine.head()
| class | alcohol | malic_acid | ash | alcalinity_of_ash | magnesium | total_phenols | flavanoids | nonflavanoid_phenols | proanthocyanins | color_intensity | hue | od280_od315_of_diluted_wines | proline | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1 | 14.23 | 1.71 | 2.43 | 15.6 | 127 | 2.80 | 3.06 | 0.28 | 2.29 | 5.64 | 1.04 | 3.92 | 1065 |
| 1 | 1 | 13.20 | 1.78 | 2.14 | 11.2 | 100 | 2.65 | 2.76 | 0.26 | 1.28 | 4.38 | 1.05 | 3.40 | 1050 |
| 2 | 1 | 13.16 | 2.36 | 2.67 | 18.6 | 101 | 2.80 | 3.24 | 0.30 | 2.81 | 5.68 | 1.03 | 3.17 | 1185 |
| 3 | 1 | 14.37 | 1.95 | 2.50 | 16.8 | 113 | 3.85 | 3.49 | 0.24 | 2.18 | 7.80 | 0.86 | 3.45 | 1480 |
| 4 | 1 | 13.24 | 2.59 | 2.87 | 21.0 | 118 | 2.80 | 2.69 | 0.39 | 1.82 | 4.32 | 1.04 | 2.93 | 735 |
拆分数据的目的是能够评估预测模型在用于看不见的数据时的质量。训练时,我们将尝试构建一个尽可能接近数据的模型,以便能够最准确地做出预测。但是,如果没有测试集,我们将面临过度拟合的风险——该模型对于它所看到的数据非常有效,但不适用于新数据。
分割比率经常被争论,在实践中可能会将的数据分成三组:训练、验证和测试。将使用训练数据来了解希望使用哪个分类器;在调整参数的同时进行测试的验证集和测试集,以了解最终模型在实践中的工作方式。此外,还有一些技术,如 K-Fold 交叉验证,也有助于减少偏差。
出于演示目的,我们只会将数据随机分成测试和训练,分成 80/20。
from sklearn.model_selection import train_test_split
# X删除我们的target
X = wine.drop(["class"], axis=1)
y = wine['class']
# 数据集拆分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
所有特征都是数字型的,因此我们无需担心使用 one-hot 编码等技术转换分类数据。但是,我们将演示如何将我们的数据标准化。标准化重新调整了我们的属性,因此它们的平均值为0,标准差为 1。假设分布是高斯分布(如果是,则效果更好),或者可以使用归一化在 0 和 1 的范围之间重新调整
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
train_scaled = scaler.fit_transform(X_train)
test_scaled = scaler.transform(X_test)
如果您在 n 维空间(其中 n 是特征的数量)中绘制数据,支持向量机 (SVM) 会尝试拟合最能区分类别的超平面。当你有一个新的数据点时,它相对于超平面的位置将预测该点属于哪个类别。
from sklearn import svm
model1 = svm.SVC()
model1.fit(train_scaled, y_train)
SVC()
from sklearn.naive_bayes import GaussianNB
model2 = GaussianNB()
model2.fit(train_scaled, y_train)
GaussianNB()
from sklearn.linear_model import LogisticRegression
modelog = LogisticRegression()
modelog.fit(train_scaled,y_train)
LogisticRegression()
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
tree_model = DecisionTreeClassifier()
rf_model = RandomForestClassifier()
tree_model.fit(train_scaled, y_train)
rf_model.fit(train_scaled, y_train)
RandomForestClassifier()
from sklearn.neural_network import MLPClassifier
model3 = MLPClassifier()
model3.fit(train_scaled, y_train)
MLPClassifier()
from sklearn.metrics import accuracy_score
# 训练集精确度
print('SVM训练集精度:',accuracy_score(y_train, model1.predict(train_scaled)))
print('朴素贝叶斯训练集精度:' ,accuracy_score(y_train, model2.predict(train_scaled)))
print('logistic回归训练集精度:' ,accuracy_score(y_train, modelog.predict(train_scaled)))
print("决策树训练集精度",accuracy_score(y_train, tree_model.predict(train_scaled)))
print("随机森林训练集精度",accuracy_score(y_train, rf_model.predict(train_scaled)))
print('MLP训练集精度',accuracy_score(y_train, model3.predict(train_scaled)))
SVM训练集精度: 1.0
朴素贝叶斯训练集精度: 0.9788732394366197
logistic回归训练集精度: 1.0
决策树训练集精度 1.0
随机森林训练集精度 1.0
MLP训练集精度 1.0
# 测试集精确度
print('SVM测试集精度:',accuracy_score(y_test, model1.predict(test_scaled)))
print('朴素贝叶斯测试集季度:' ,accuracy_score(y_test, model2.predict(test_scaled)))
print('logistic回归测试集精度:' ,accuracy_score(y_test, modelog.predict(test_scaled)))
print("决策树测试集精度",accuracy_score(y_test, tree_model.predict(test_scaled)))
print("随机森林测试集精度",accuracy_score(y_test, rf_model.predict(test_scaled)))
print('MLP测试集精度',accuracy_score(y_test, model3.predict(test_scaled)))
SVM测试集精度: 0.9722222222222222
朴素贝叶斯测试集季度: 1.0
logistic回归测试集精度: 0.9722222222222222
决策树测试集精度 0.9166666666666666
随机森林测试集精度 1.0
MLP测试集精度 0.9722222222222222
在红酒数据集上各个分类器的结果都不错,在具体项目中,大家可能需要使用一些更complex的模型。✨✨✨如果文章对你有帮助,一键三连吧,谢谢各位的支持!
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
总的来说,我对ruby还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack