草庐IT

learning_curve

全部标签

python - 如何在 Scikit-Learn 中绘制超过 10 倍交叉验证的 PR 曲线

我正在针对二进制预测问题运行一些监督实验。我使用10折交叉验证来评估平均精度的性能(每折的平均精度除以交叉验证的折数-在我的例子中为10)。我想绘制这10次折叠的平均精度结果的PR曲线,但我不确定执行此操作的最佳方法。Apreviousquestion在CrossValidatedStackExchange网站上提出了同样的问题。一条建议通过thisexample解决的评论从Scikit-Learn站点绘制跨交叉验证折叠的ROC曲线,并将其调整为平均精度。这是我为尝试这个想法而修改的相关代码部分:fromscipyimportinterp#Otherpackages/functions

python - 如何将非整数字符串标签与 scikit-learn 中的 SVM 一起使用? Python

Scikit-learn具有相当用户友好的机器学习python模块。我正在尝试训练用于自然语言处理(NLP)的SVM标记器,其中我的标签和输入数据是单词和注释。例如。词性标记,而不是使用double/整数数据作为输入元组[[1,2],[2,0]],我的元组将如下所示[['word','NOUN'],['young','形容词']]任何人都可以举例说明如何将SVM与字符串元组一起使用吗?此处给出的教程/文档适用于整数/double输入。http://scikit-learn.org/stable/modules/svm.html 最佳答案

python - 使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

我使用pythonscikit-learn库在5000多个样本上安装了k-means算法。我想将最接近聚类中心的50个样本作为输出。我如何执行此任务? 最佳答案 如果km是k-means模型,则数组X中每个点到第j个质心的距离是d=km.transform(X)[:,j]这给出了一个len(X)距离数组。最接近质心j的50个索引是ind=np.argsort(d)[::-1][:50]所以离质心最近的50个点是X[ind](或者使用argpartition,如果你有足够新的NumPy,因为这样会快很多)。

python - 如何关闭 tf.contrib.learn Estimator 中的 events.out.tfevents 文件

在tensorflow.contrib.learn中使用estimator.Estimator时,在训练和预测之后,modeldir中有这些文件:p>检查点events.out.tfevents.1487956647events.out.tfevents.1487957016图表.pbtxtmodel.ckpt-101.data-00000-of-00001model.ckpt-101.indexmodel.ckpt-101.meta当图形复杂或变量数量大时,graph.pbtxt文件和事件文件可能会非常大。这是一种不写这些文件的方法吗?由于模型重新加载只需要检查点文件,因此删除它们不

Python - scipy.optimize curve_fit 可获得 R 平方和绝对平方和?

我正在使用curve_fit拟合曲线。有没有办法读出决定系数和绝对平方和?谢谢,啄木鸟 最佳答案 Accordingtodoc,用curve_fit优化给你Optimalvaluesfortheparameterssothatthesumofthesquarederroroff(xdata,*popt)-ydataisminimized然后,使用optimize.leastsqimportscipy.optimizep,cov,infodict,mesg,ier=optimize.leastsq(residuals,a_guess,

python - 来自 scipy.optimize 的 python 中 curve_fit 和 leastsq 之间的区别

我有一个函数包含:自变量X,因变量Y两个固定参数a和b。使用相同的实验数据,curve_fit和leastsq函数都可以拟合到具有相似结果的函数。使用curve_fit我有:[2.50110215e-04,7.80730380e-05]用于固定参数a和b。使用leastsq我有:[2.50110267e-04,7.80730843e-05]用于固定参数a和b。我想知道这两者是否有区别,如果有,什么情况下应该使用curve_fit,什么情况下应该使用leastsq? 最佳答案 curve-fit使用leastsq进行计算,因此它们应该

python - 当 n_jobs>1 时,scikit-learn 的 GridSearchCV 停止工作

我之前问过here提出以下代码行:parameters=[{'weights':['uniform'],'n_neighbors':[5,10,20,30,40,50,60,70,80,90,100]}]clf=GridSearchCV(neighbors.KNeighborsRegressor(),parameters,n_jobs=4)clf.fit(features,rewards)但是当我运行它时出现了另一个与之前提出的问题无关的问题。Python以以下操作系统错误消息结束:Process:Python[1327]Path:/Library/Frameworks/Python.

python - curve_fit 的限制值(scipy.optimize)

我正在尝试使用curve_fit将逻辑增长曲线拟合到我的数据,并使用以下函数作为输入。deflogistic(x,y0,k,d,a,b):ifb>0anda>0:y=(k*pow(1+np.exp(d-(a*b*x)),(-1/b)))+y0elifb>=-1orb如您所见,我使用的函数对它可以接受的参数a和b的值有一些限制。关于如何处理不正确的值的任何猜测?输入函数应该引发异常还是返回虚拟值?提前致谢。 最佳答案 当参数超出允许范围时,返回一个非常大的数字(与要拟合的数据相去甚远)。这将(希望)惩罚这种参数选择,以至于curve_

python - SGDClassifier 与 LogisticRegression 与 scikit-learn 库中的 sgd 求解器

scikit-learn库具有以下看起来相似的分类器:逻辑回归分类器有不同的求解器,其中之一是'sgd'http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression它还有一个不同的分类器“SGDClassifier”和损失对于逻辑回归,参数可以称为“log”。http://scikit-learn.org/stable/modules/generated/sklearn.linear

python - 用于降维的 Scikit-learn 主成分分析 (PCA)

我想进行降维和数据集成的主成分分析。我有3个特征(变量)和5个样本,如下所示。我想通过转换它们(计算第一台PC)将它们集成到一维(1个特征)输出中。我想使用转换后的数据进行进一步的统计分析,因为我相信它显示了3个输入特征的“主要”特征。我首先使用scikit-learn使用python编写了一个测试代码,如下所示。这是简单的情况,即3个特征的值都相等。换句话说,我对三个相同的向量[0,1,2,1,0]应用了PCA。代码importnumpyasnpfromsklearn.decompositionimportPCApca=PCA(n_components=1)samples=np.ar