草庐IT

Logistic回归

全部标签

python - 使用 statsmodels 忽略多个 OLS 回归中的缺失值

我正在尝试使用statsmodels和pandas数据框运行多重OLS回归。不同行的不同列中存在缺失值,我不断收到错误消息:ValueError:数组不能包含infs或NaNs我看到了这个SO问题,它很相似但没有完全回答我的问题:statsmodel.api.Logit:valueerrorarraymustnotcontaininfsornans我想做的是运行回归并忽略所有缺少我在此回归中使用的变量的行。现在我有:importpandasaspdimportnumpyasnpimportstatsmodels.formula.apiassmdf=pd.read_csv('cl_030

python - 逻辑回归中的微调参数

我正在运行逻辑回归,在文本列上运行tf-idf。这是我在逻辑回归中使用的唯一列。如何确保尽可能好地调整此参数?我希望能够运行一组最终让我说我的Logistic回归分类器正在尽可能好地运行的步骤。fromsklearnimportmetrics,preprocessing,cross_validationfromsklearn.feature_extraction.textimportTfidfVectorizerimportsklearn.linear_modelaslmimportpandasasploadData=lambdaf:np.genfromtxt(open(f,'r'),

python - 使用 Python 与 Julia 进行线性回归的分析解决方案

使用AndrewNg类(class)中的示例(使用正规方程查找线性回归的参数):使用Python:X=np.array([[1,2104,5,1,45],[1,1416,3,2,40],[1,1534,3,2,30],[1,852,2,1,36]])y=np.array([[460],[232],[315],[178]])θ=((np.linalg.inv(X.T.dot(X))).dot(X.T)).dot(y)print(θ)结果:[[7.49398438e+02][1.65405273e-01][-4.68750000e+00][-4.79453125e+01][-5.34570

python - 使用局部加权回归 (LOESS/LOWESS) 预测新数据

如何在python中拟合局部加权回归,以便它可以用于预测新数据?有statsmodels.nonparametric.smoothers_lowess.lowess,但它只返回原始数据集的估计;所以它似乎只能将fit和predict放在一起,而不是像我预期的那样分开。scikit-learn总是有一个fit方法,允许对象稍后在带有predict的新数据上使用;但它没有实现lowess。 最佳答案 Lowess非常适合预测(与插值相结合时)!我认为代码非常简单——如果您有任何问题,请告诉我!MatplolibFigureimportm

python - Python/Numpy 中包含 NAN 的数组的线性回归

我有两个数组,比如varx和vary。两者都在不同位置包含NAN值。但是,我想对两者进行线性回归以显示两个数组的相关程度。到目前为止这非常有帮助:http://glowingpython.blogspot.de/2012/03/linear-regression-with-numpy.html但是,使用这个:slope,intercept,r_value,p_value,std_err=stats.linregress(varx,vary)每个输出变量的结果都是nans。仅从两个数组中获取有效值作为线性回归输入的最方便的方法是什么?我听说过屏蔽数组,但不确定它的具体工作原理。

python - 加速 sklearn 逻辑回归

我有一个模型,我正在尝试使用sklearn中的LogisticRegression构建,该模型具有几千个特征和大约60,000个样本。我正在尝试拟合模型,它现在已经运行了大约10分钟。我运行它的机器有数GB的RAM和几个内核可供使用,我想知道是否有任何方法可以加快进程编辑这台机器有24个内核,这里是top的输出以给出内存的概念Processes:94total,8running,3stuck,83sleeping,583threads20:10:19LoadAvg:1.49,1.25,1.19CPUusage:4.34%user,0.68%sys,94.96%idleSharedLib

python statsmodels - 回归中的二次项

我有以下线性回归:importstatsmodels.formula.apiassmmodel=sm.ols(formula='a~b+c',data=data).fit()我想在这个模型中为b添加一个二次项。statsmodels.ols有简单的方法吗?我应该使用更好的软件包来实现这一目标吗? 最佳答案 最简单的方法是model=sm.ols(formula='a~b+c+I(b**2)',data=data).fit()I(...)基本上是在说“patsy,请不要在这里自作多情,让Python处理kthx中的所有内容”。(Mor

python - 如何使用 lightgbm.cv 进行回归?

我想使用lgb.Dataset并使用early_stopping_rounds对LightGBM模型进行交叉验证。以下方法适用于XGBoost的xgboost.cv。我不喜欢将ScikitLearn的方法与GridSearchCV一起使用,因为它不支持提前停止或lgb.Dataset。importlightgbmaslgbfromsklearn.metricsimportmean_absolute_errordftrainLGB=lgb.Dataset(data=dftrain,label=ytrain,feature_name=list(dftrain))params={'objec

python - 在线性回归中比较 StandardScaler 与 Normalizer 的结果

我正在研究不同场景下的一些线性回归示例,比较使用Normalizer和StandardScaler的结果,结果令人费解。我正在使用波士顿住房数据集,并以这种方式准备它:importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_bostonfromsklearn.preprocessingimportNormalizerfromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportLinearRegression#loadthedata

python - 将属性和目标矩阵用于 TensorFlow 线性回归 Python

我正在尝试关注thistutorial.TensorFlow刚刚问世,我真的很想了解它。我熟悉惩罚线性回归,如Lasso、Ridge和ElasticNet及其在scikit-learn中的用法。对于scikit-learn套索回归,我需要输入到回归算法中的是DF_X[一个MxN维属性矩阵(pd.DataFrame)]和SR_y[一个M维目标向量(pd.Series)]。TensorFlow中的Variable结构对我来说有点陌生,我不确定如何将我的输入数据构造成它想要的结构。好像softmax回归是为了分类。如何重组我的DF_X(MxN属性矩阵)和SR_y(M维目标向量)以输入到ten