草庐IT

scikits-learn

全部标签

python - 如何像 R 一样在 scikit-learn 中获得回归摘要?

作为R用户,我还想快速了解scikit。创建线性回归模型很好,但似乎无法找到一种合理的方法来获得回归输出的标准摘要。代码示例:#LinearRegressionimportnumpyasnpfromsklearnimportdatasetsfromsklearn.linear_modelimportLinearRegression#Loadthediabetesdatasetsdataset=datasets.load_diabetes()#Fitalinearregressionmodeltothedatamodel=LinearRegression()model.fit(datas

python - Scikit-learn - 使用 RFECV 和 GridSearch 减少特征。系数存储在哪里?

我正在使用Scikit-learnRFECV通过交叉验证为逻辑回归选择最重要的特征。假设X是特征的[n,x]数据框,y表示响应变量:fromsklearn.pipelineimportmake_pipelinefromsklearn.grid_searchimportGridSearchCVfromsklearn.cross_validationimportStratifiedKFoldfromsklearnimportpreprocessingfromsklearn.feature_selectionimportRFECVimportsklearnimportsklearn.line

python - 使用 Scikit-learn (sklearn) 估算整个 DataFrame(所有列)而不迭代列

我想估算pandasDataFrame上的所有列...我能想到的唯一方法是逐列如下所示...有没有一种操作可以让我在不遍历列的情况下估算整个DataFrame?#!/usr/bin/pythonfromsklearn.preprocessingimportImputerimportnumpyasnpimportpandasaspd#Imputerfill_NaN=Imputer(missing_values=np.nan,strategy='mean',axis=1)#Model1DF=pd.DataFrame([[0,1,np.nan],[2,np.nan,3],[np.nan,2,

python - Scikit学习中的线性回归和梯度下降?

在coursera机器学习类(class)中https://share.coursera.org/wiki/index.php/ML:Linear_Regression_with_Multiple_Variables#Gradient_Descent_for_Multiple_Variables,它说梯度下降应该收敛。我正在使用来自scikitlearn的线性回归。它不提供梯度下降信息。我在stackoverflow上看到了很多关于使用梯度下降实现线性回归的问题。我们如何在现实世界中使用来自scikit-learn的线性回归?或者为什么scikit-learn在线性回归输出中不提供梯度

python - 使用 scikit-learn 对随机森林进行递归特征消除

我正在尝试使用scikit-learn和随机森林分类器执行递归特征消除,并使用OOBROC作为对递归过程中创建的每个子集进行评分的方法。但是,当我尝试使用RFECV方法时,我收到一条错误消息AttributeError:'RandomForestClassifier'objecthasnoattribute'coef_'随机森林本身没有系数,但它们确实有根据基尼分数进行的排名。所以,我想知道如何解决这个问题。请注意,我想使用一种方法来明确告诉我在最佳分组中选择了我的pandasDataFrame中的哪些特征,因为我正在使用递归特征选择来尽量减少数据我将输入到最终的分类器中。下面是一些示

python - scikit-learn cross_val_predict 准确度分数是如何计算的?

cross_val_predict(参见doc,v0.18)是否使用如下代码所示的k-fold方法计算每个折叠的准确度并最终平均它们或不?cv=KFold(len(labels),n_folds=20)clf=SVC()ypred=cross_val_predict(clf,td,labels,cv=cv)accuracy=accuracy_score(labels,ypred)printaccuracy 最佳答案 不,它没有!根据crossvalidationdoc页面,cross_val_predict不返回任何分数,而只返回基

python - 在 python/scikit/numpy 中替代 r 的指数平滑状态空间模型

在R中,我们有一个很好的预测模型,例如:ets(y,model="ZZZ",damped=NULL,alpha=NULL,beta=NULL,gamma=NULL,phi=NULL,additive.only=FALSE,lambda=NULL,lower=c(rep(0.0001,3),0.8),upper=c(rep(0.9999,3),0.98),opt.crit=c("lik","amse","mse","sigma","mae"),nmse=3,bounds=c("both","usual","admissible"),ic=c("aicc","aic","bic"),res

python - 使用 scikit learn 获取信息量最大的特征时遇到问题?

我试图从textualcorpus中获取信息量最大的特征。.从这个很好的回答question我知道这个任务可以按如下方式完成:defmost_informative_feature_for_class(vectorizer,classifier,classlabel,n=10):labelid=list(classifier.classes_).index(classlabel)feature_names=vectorizer.get_feature_names()topn=sorted(zip(classifier.coef_[labelid],feature_names))[-n:

python - 了解 scikit-learn KMeans 返回的 "score"

我对一组文本文档(大约100个)应用了聚类。我使用TfIdfVectorizer将它们转换为Tfidf向量,并将向量作为输入提供给scikitlearn.cluster.KMeans(n_clusters=2,init='k-means++',max_iter=100,n_init=10)。现在当我model.fit()printmodel.score()在我的向量上,如果所有文本文档都非常相似,我会得到一个非常小的值,如果文档非常不同,我会得到一个非常大的负值。我的基本目的是查找哪一组文档相似,但有人可以帮我理解这个model.score()值究竟意味着什么适合吗?我如何使用这个值来

python - 使用 Scikit-learn 计算信息增益

我正在使用Scikit-learn进行文本分类。我想针对(稀疏)文档术语矩阵中的一个类计算每个属性的信息增益。信息增益定义为H(Class)-H(Class|Attribute),其中H是熵。在weka中,这将使用InfoGainAttribute进行计算.但我在scikit-learn中没有找到这个度量。(suggested上面的信息增益公式与互信息的度量相同。这也符合wikipedia中的定义。是否可以在scikit-learn中对互信息使用特定设置来完成这项任务?) 最佳答案 你可以使用scikit-learn的mutual_