理解多个预测变量与连续响应变量之间关系通常适用线性回归,但当响应变量为类别变量时需要适用逻辑回归。
逻辑回归是尝试从数据集中把W观测记录分为不同类别的分类算法。
常见的分类回归场景有:
相比于线性回归的响应值是连续变量,上述示例的响应变量仅包括两个值中的一个。
逻辑回归使用最大似然估计方法寻找下面方程:
l o g [ p ( X ) / ( 1 − p ( X ) ) ] = β 0 + β 1 X 1 + β 2 X 2 + … + β p X p {log^{[p(X) / (1-p(X))]} = β_0 + β_1X_1 + β_2X_2 + … + β_pX_p} log[p(X)/(1−p(X))]=β0+β1X1+β2X2+…+βpXp
参数说明:
X j : 第 j t h 个预测变量 {X_j: 第 j^{th} 个预测变量} Xj:第jth个预测变量
β j : 第 j t h 个预测变量的预测系数 {β_j: 第 j^{th} 个预测变量的预测系数} βj:第jth个预测变量的预测系数
方程右边的公式预测了响应变量取值为1的对数概率。因此,当我们拟合逻辑回归模型时,我们可以使用以下公式来计算给定观测值为1的概率:
p ( X ) = e β 0 + β 1 X 1 + β 2 X 2 + … + β p X p / ( 1 + e β 0 + β 1 X 1 + β 2 X 2 + … + β p X p ) {p(X) = e^{β_0 + β_1X_1 + β_2X_2 + … + β_pX_p} / (1 + e^{β_0 + β_1X_1 + β_2X_2 + … + β_pX_p)}} p(X)=eβ0+β1X1+β2X2+…+βpXp/(1+eβ0+β1X1+β2X2+…+βpXp)
然后使用特定概率阈值对观测值进行分类:1或0。举例:观测概率大等于0.5则为1,反之为0。
假设我们使用逻辑回归模型来预测一个给定的篮球运动员是否会被NBA选中,基于他们的场均篮板和场均得分。
下面是逻辑回归模型的输出:
| Item | Coefficient | Std. Error | Z-statistic | P-value |
|---|---|---|---|---|
| Intercept | -2.8690 | 0.1485 | -19.3199 | <0.0001 |
| Rebounds | 0.0698 | 0.0161 | 4.3235 | <0.0001 |
| Points | 0.1694 | 0.0299 | 5.6734 | <0.0001 |
使用上述系数,我们可以计算指定运动员被选人NBA的概率:
P ( D r a f t e d ) = e − 2.8690 + 0.0698 ∗ ( r e b s ) + 0.1694 ∗ ( p o i n t s ) / ( 1 + e − 2.8690 + 0.0698 ∗ ( r e b s ) + 0.1694 ∗ ( p o i n t s ) ) {P(Drafted) = e^{-2.8690 + 0.0698*(rebs) + 0.1694*(points)} / (1+e^{-2.8690 + 0.0698*(rebs) + 0.1694*(points)})} P(Drafted)=e−2.8690+0.0698∗(rebs)+0.1694∗(points)/(1+e−2.8690+0.0698∗(rebs)+0.1694∗(points))
假设某运动员场均为8个篮板、得15分,则计算结果为0.557,既然大于0.5,则预测结果为被选入NBA;
相比另一个运动员场均3个篮板、得7分,则计算结果为0.186,既然小于0.5,则预测结果不会被选人NBA.
逻辑回归需遵循下面一些假设:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
import matplotlib.pyplot as plt
使用下面代码加载数据:
data = pd.read_csv("data/default.csv")
# view first six rows of dataset
print(data[0:6])
# find total observations in dataset
print(len(data.index))
输出结果:
default student balance income
0 0 0 729.526495 44361.625074
1 0 1 817.180407 12106.134700
2 0 0 1073.549164 31767.138947
3 0 0 529.250605 35704.493935
4 0 0 785.655883 38463.495879
5 0 1 919.588530 7491.558572
10000
数据集包含10000条客户信息,共四列:
default: 响应变量,是否违约.
student: 是否为学生.
balance: 平均余额.
income: 收入情况.
我们将使用其他三个变量预测是否违约:default字段。
下面把原数据集分为测试集和训练集:
# 定义预测变量和响应变量
x = data[['student', 'balance', 'income']]
y = data['default']
# split the dataset into training (70%) and testing (30%) sets
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)
我们使用LogisticRegression()函数拟合模型:
# 实例化模型对象
log_regression = LogisticRegression()
# 使用训练数据拟合模型
log_regression.fit(x_train, y_train)
# 使用测试数据进行预测
y_pred = log_regression.predict(x_test)
# 输出模型参数
print(log_regression.intercept_, log_regression.coef_, log_regression.score(x_train, y_train))
# [-2.86843745] [[-3.79999456e+00 4.03495132e-03 -1.36823955e-04]] 0.9691428571428572
测试完成后,我们需要分析模型表现. 首先创建混淆矩阵:
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
print(cnf_matrix)
结果如下:
[[2870 17]
[ 93 20]]
下面获取模型准确率,它表示模型的正确预测率:
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))
# Accuracy: 0.9633333333333334
通过结果可以说明模型可以正确预测客户违约率为96.2% .
最后,我们可以绘制ROC (Receiver Operating Characteristic)曲线,该曲线显示模型预测的真阳性的百分比,随着预测概率的截止点从1降低到0。AUC(曲线下面积)越高,我们的模型预测结果就越准确:

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗? 最佳答案 您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话,Rails使用#method_missing作为属性setter,因此您的模块将优先,阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost),那么您的实例方法需要进入一个特殊的模块:classBlah
我有一个表单,其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在?solve_problem_pathdo|f|%>... 最佳答案 创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢
我有一些非常大的模型,我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中?说app/models/validations/user_validations.rb。如果可以,有人可以提供示例吗? 最佳答案 您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
对于Rails模型,是否可以/建议让一个类的成员不持久保存到数据库中?我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量,我想将值存储在一个“虚拟”类成员中,该成员只是将值传递回Controller。你能有这样的类(class)成员吗? 最佳答案 将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中,所有实例变量都是私有(private)的,不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
我有一个正在构建的应用程序,我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是,在make_tires内部有一个错误,如果我为Tire尝试它,则没有用于创建或新建的activerecord方法。当我检查轮胎时,它没有这些方法。我该如何补救?错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发,它们都因相同的错误而失败。 最佳答案