草庐IT

python - 对数对数图线性回归

fig=plt.figure();ax=plt.gca()ax.scatter(x,y,c="blue",alpha=0.95,edgecolors='none')ax.set_yscale('log')ax.set_xscale('log')(Pdb)printx,y[29,36,8,32,11,60,16,242,36,115,5,102,3,16,71,0,0,21,347,19,12,162,11,224,20,1,14,6,3,346,73,51,42,37,251,21,100,11,53,118,82,113,21,0,42,42,105,9,96,93,39,66,66

python - 任意数序列的回归测试

我正在尝试提出一种回归测试数字序列的方法。我的测试系统会为每个系统版本生成大量数字(例如高度、宽度、深度等)。这些数字以未知的方式因版本而异。给定一系列“好”版本和一个"new"版本,我想找到最不正常的序列。例子:“好”版本:versionwidthheightdepth112343302212244304312046300412445301"new"版本:512160305在这种情况下,我显然想找到高度序列,因为值60比宽度或深度更突出。我当前的方法计算每个良好案例序列的均值和标准差,对于新版本的数字,它计算该数字属于该序列的概率(基于已知的均值和标准差)。这有效……有点。我的序列中

python - Python 数据框中的滚动回归估计

我有一个这样的数据框:DateYX1X2X3222004-05-129.348158e-090.0000810.0000280.000036232004-05-139.285989e-090.0000730.0000810.000097242004-05-149.732308e-090.0000850.0000730.000096252004-05-172.235977e-080.0000890.0000850.000099262004-05-182.792661e-090.0000340.0000890.000150272004-05-199.745323e-090.0000480.

python - Python 和 R 之间的线性回归系数之间的差异

我正在尝试在Python中运行我已经在R中完成的线性回归,以便找到系数为0的变量。我遇到的问题是R中的线性回归返回NAs对于低方差的列,而scikit学习回归返回系数。在R代码中,我通过将带有NA的变量保存为线性回归的输出来找到并保存这些变量,但我似乎无法想出一种在python中模仿这种行为的方法。我正在使用的代码可以在下面找到。R代码:aPython代码:importpandasaspdfromsklearnimportlinear_modela=[23,45,546,42,68,15,47]b=[1,2,4,6,34,2,8]c=[22,33,44,55,66,77,88]d=[1

python - 使用 statsmodels 忽略多个 OLS 回归中的缺失值

我正在尝试使用statsmodels和pandas数据框运行多重OLS回归。不同行的不同列中存在缺失值,我不断收到错误消息:ValueError:数组不能包含infs或NaNs我看到了这个SO问题,它很相似但没有完全回答我的问题:statsmodel.api.Logit:valueerrorarraymustnotcontaininfsornans我想做的是运行回归并忽略所有缺少我在此回归中使用的变量的行。现在我有:importpandasaspdimportnumpyasnpimportstatsmodels.formula.apiassmdf=pd.read_csv('cl_030

python - 逻辑回归中的微调参数

我正在运行逻辑回归,在文本列上运行tf-idf。这是我在逻辑回归中使用的唯一列。如何确保尽可能好地调整此参数?我希望能够运行一组最终让我说我的Logistic回归分类器正在尽可能好地运行的步骤。fromsklearnimportmetrics,preprocessing,cross_validationfromsklearn.feature_extraction.textimportTfidfVectorizerimportsklearn.linear_modelaslmimportpandasasploadData=lambdaf:np.genfromtxt(open(f,'r'),

python - 使用 Python 与 Julia 进行线性回归的分析解决方案

使用AndrewNg类(class)中的示例(使用正规方程查找线性回归的参数):使用Python:X=np.array([[1,2104,5,1,45],[1,1416,3,2,40],[1,1534,3,2,30],[1,852,2,1,36]])y=np.array([[460],[232],[315],[178]])θ=((np.linalg.inv(X.T.dot(X))).dot(X.T)).dot(y)print(θ)结果:[[7.49398438e+02][1.65405273e-01][-4.68750000e+00][-4.79453125e+01][-5.34570

python - 使用局部加权回归 (LOESS/LOWESS) 预测新数据

如何在python中拟合局部加权回归,以便它可以用于预测新数据?有statsmodels.nonparametric.smoothers_lowess.lowess,但它只返回原始数据集的估计;所以它似乎只能将fit和predict放在一起,而不是像我预期的那样分开。scikit-learn总是有一个fit方法,允许对象稍后在带有predict的新数据上使用;但它没有实现lowess。 最佳答案 Lowess非常适合预测(与插值相结合时)!我认为代码非常简单——如果您有任何问题,请告诉我!MatplolibFigureimportm

python - Python/Numpy 中包含 NAN 的数组的线性回归

我有两个数组,比如varx和vary。两者都在不同位置包含NAN值。但是,我想对两者进行线性回归以显示两个数组的相关程度。到目前为止这非常有帮助:http://glowingpython.blogspot.de/2012/03/linear-regression-with-numpy.html但是,使用这个:slope,intercept,r_value,p_value,std_err=stats.linregress(varx,vary)每个输出变量的结果都是nans。仅从两个数组中获取有效值作为线性回归输入的最方便的方法是什么?我听说过屏蔽数组,但不确定它的具体工作原理。

python - 加速 sklearn 逻辑回归

我有一个模型,我正在尝试使用sklearn中的LogisticRegression构建,该模型具有几千个特征和大约60,000个样本。我正在尝试拟合模型,它现在已经运行了大约10分钟。我运行它的机器有数GB的RAM和几个内核可供使用,我想知道是否有任何方法可以加快进程编辑这台机器有24个内核,这里是top的输出以给出内存的概念Processes:94total,8running,3stuck,83sleeping,583threads20:10:19LoadAvg:1.49,1.25,1.19CPUusage:4.34%user,0.68%sys,94.96%idleSharedLib