草庐IT

Logistic回归

全部标签

Python pandas 线性回归 groupby

我正在尝试通过pandaspython数据框对一组进行线性回归:这是数据框df:groupdatevalueA01-02-201616A01-03-201615A01-04-201614A01-05-201617A01-06-201619A01-07-201620B01-02-201616B01-03-201613B01-04-201613C01-02-201616C01-03-201616#importstandardpackagesimportpandasaspdimportnumpyasnp#importMLpackagesfromsklearn.linear_modelimpo

python - logistic/sigmoid 函数实现数值精度

在scipy.special.expit中,逻辑函数实现如下:ifx但是,我已经看到其他语言/框架的实现可以简单地做到1/(1+exp(-x))我想知道scipy版本实际带来了多少好处。对于非常小的x,结果接近于0。即使exp(-x)溢出到Inf,它仍然有效。 最佳答案 这实际上只是为了稳定性——输入非常大的值可能会返回意想不到的结果。如果expit的实现方式与1/(1+exp(-x))相同,则将-710的值放入函数将返回nan,而-709将按预期给出接近于零的值。这是因为exp(710)太大而不能成为double。代码中的分支只是

python - 如何在 Python scikit-learn 中输出随机森林中每棵树的回归预测?

除了组合预测之外,是否还有一种方法可以从随机森林中的每棵树中获取预测?我想输出列表中的所有预测,而不是查看整棵树。我知道我可以使用apply方法获取叶索引,但我不确定如何使用它从叶中获取值。编辑:这是我到目前为止从下面的评论中得到的内容。之前我不清楚可以调用estimators_属性中的树,但似乎可以在使用该属性的每棵树上使用predict方法。不过,这是最好的方法吗?numberTrees=100clf=RandomForestRegressor(n_estimators=numberTrees)clf.fit(X,Y)fortreeinrange(numberTrees):prin

python - R、statmodels、sklearn 与逻辑回归分类任务的比较

我在R、pythonstatmodels和sklearn中做了一些逻辑回归实验。虽然R和statmodels给出的结果一致,但与sklearn返回的结果存在一些差异。我想了解为什么这些结果不同。我理解这可能不是木头下使用的相同优化算法。具体来说,我使用标准的Default数据集(在ISLbook中使用)。以下Python代码将数据读入数据框Default。importpandasaspd#dataisavailablehereDefault=pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.csv'

python - 查找回归平面并将其绘制到一组点

我想为一些数据点拟合一个平面并绘制它。我当前的代码是这样的:importnumpyasnpfrommpl_toolkits.mplot3dimportAxes3Dimportmatplotlib.pyplotaspltpoints=[(1.1,2.1,8.1),(3.2,4.2,8.0),(5.3,1.3,8.2),(3.4,2.4,8.3),(1.5,4.5,8.0)]xs,ys,zs=zip(*points)fig=plt.figure()ax=fig.add_subplot(111,projection='3d')ax.scatter(xs,ys,zs)point=np.arra

python - 我可以使用带有 pandas 数据框的散点图绘制回归线并显示参数吗?

我想使用以下代码从Pandas数据帧生成散点图:df.plot.scatter(x='one',y='two,title='Scatterplot')是否有我可以随语句发送的参数,以便它绘制回归线并显示拟合参数?类似于:df.plot.scatter(x='one',y='two',title='Scatterplot',Regression_line) 最佳答案 我认为DataFrame.plot()没有这样的参数。但是,您可以使用Seaborn轻松实现此目的.只需将Pandas数据框传递给lmplot(假设你已经安装了seabo

python - 对数对数图线性回归

fig=plt.figure();ax=plt.gca()ax.scatter(x,y,c="blue",alpha=0.95,edgecolors='none')ax.set_yscale('log')ax.set_xscale('log')(Pdb)printx,y[29,36,8,32,11,60,16,242,36,115,5,102,3,16,71,0,0,21,347,19,12,162,11,224,20,1,14,6,3,346,73,51,42,37,251,21,100,11,53,118,82,113,21,0,42,42,105,9,96,93,39,66,66

python - 任意数序列的回归测试

我正在尝试提出一种回归测试数字序列的方法。我的测试系统会为每个系统版本生成大量数字(例如高度、宽度、深度等)。这些数字以未知的方式因版本而异。给定一系列“好”版本和一个"new"版本,我想找到最不正常的序列。例子:“好”版本:versionwidthheightdepth112343302212244304312046300412445301"new"版本:512160305在这种情况下,我显然想找到高度序列,因为值60比宽度或深度更突出。我当前的方法计算每个良好案例序列的均值和标准差,对于新版本的数字,它计算该数字属于该序列的概率(基于已知的均值和标准差)。这有效……有点。我的序列中

python - Python 数据框中的滚动回归估计

我有一个这样的数据框:DateYX1X2X3222004-05-129.348158e-090.0000810.0000280.000036232004-05-139.285989e-090.0000730.0000810.000097242004-05-149.732308e-090.0000850.0000730.000096252004-05-172.235977e-080.0000890.0000850.000099262004-05-182.792661e-090.0000340.0000890.000150272004-05-199.745323e-090.0000480.

python - Python 和 R 之间的线性回归系数之间的差异

我正在尝试在Python中运行我已经在R中完成的线性回归,以便找到系数为0的变量。我遇到的问题是R中的线性回归返回NAs对于低方差的列,而scikit学习回归返回系数。在R代码中,我通过将带有NA的变量保存为线性回归的输出来找到并保存这些变量,但我似乎无法想出一种在python中模仿这种行为的方法。我正在使用的代码可以在下面找到。R代码:aPython代码:importpandasaspdfromsklearnimportlinear_modela=[23,45,546,42,68,15,47]b=[1,2,4,6,34,2,8]c=[22,33,44,55,66,77,88]d=[1