草庐IT

scikit-bio

全部标签

python - 在 scikit 中保存决策树模型

我正在使用Python中的Scikit-Learn构建决策树。我已经在特定数据集上训练了模型,现在我想保存这个决策树,以便以后(在新数据集上)使用它。有人知道怎么做吗? 最佳答案 摘自thistutorial的模型持久性部分:可以使用Python内置的持久化模型将模型保存在scikit中,即pickle:>>>fromsklearnimportsvm>>>fromsklearnimportdatasets>>>clf=svm.SVC()>>>iris=datasets.load_iris()>>>X,y=iris.data,iris

python - 在 scikit-learn 中使用交叉验证时绘制 Precision-Recall 曲线

我正在使用交叉验证来评估带有scikit-learn的分类器的性能,并且我想绘制Precision-Recall曲线。我找到了anexample在scikit-learn的网站上绘制PR曲线,但它不使用交叉验证进行评估。使用交叉验证时,如何在scikitlearn中绘制Precision-Recall曲线?我做了以下但我不确定这样做是否正确(伪代码):foreachk-fold:precision,recall,_=precision_recall_curve(y_test,probs)mean_precision+=precisionmean_recall+=recallmean_p

python - scikit-learn:标记化时不要分隔带连字符的单词

我正在使用CountVectorizer并且不想将带连字符的单词分成不同的标记。我已尝试将不同的pregex模式传递到token_pattern参数中,但未能获得所需的结果。这是我尝试过的:pattern=r'''(?x)#setflagtoallowverboseregexps([A-Z]\.)+#abbreviations(e.g.U.S.A.)|\w+(-\w+)*#wordswithoptionalinternalhyphens|\$?\d+(\.\d+)?%?#currency&percentages|\.\.\.#ellipses'''text='Ihatetraffic-

python - 导出 Scikit Learn 随机森林以在 Hadoop 平台上使用

我已经使用pandas和scikitlearn开发了一个垃圾邮件分类器,可以将其集成到我们基于hadoop的系统中。为此,我需要将我的分类器导出为比酸洗更常见的格式。预测模型标记语言(PMML)是我首选的导出格式。它与我们已经使用的Cascading配合使用非常好。然而,令人惊讶的是,我找不到任何将scikit-learn模型导出到PMML的python库。有没有人有过这个用例的经验?是否有任何形式的PMML替代方案可以在scikit-learn和hadoop之间提供互操作性?可靠的PMML导出库怎么样? 最佳答案 你可以使用Py2

python - 在 scikit 学习的多类逻辑回归中,哪些系数属于哪个类?

我正在使用scikitlearn的逻辑回归来解决多类问题。logit=LogisticRegression(penalty='l1')logit=logit.fit(X,y)我对哪些功能插入了这一决定很感兴趣。logit.coef_上面给了我一个漂亮的(n_classes,n_features)格式的数据框,但是所有的类和特征名称都不见了。对于功能,这没关系,因为假设它们的索引方式与我传递它们的方式相同似乎是安全的......但是对于类,这是一个问题,因为我从来没有以任何顺序显式地传入类。那么系数集(数据框中的行)0、1、2和3属于哪个类? 最佳答案

python - 使用 scikit-learn DecisionTreeClassifier 进行聚类

当使用sklearn.tree.DecisionTreeClassifier时,分类器具有预测概率和类别的方法。有没有办法使用同一棵树进行聚类:对于给定的输入向量x,简单地告诉x属于哪个叶子? 最佳答案 我找到了我自己问题的答案-将它留在这里作为下次有人查找时的引用:importnumpyasnpimportsklearn.treeclf=sklearn.tree.DecisionTreeClassifier()clf.fit(X,y)clf.tree_.apply(np.asfortranarray(X.astype(sklear

python - GridSearchCV 在 scikit-learn 中的小数据集上非常慢

这很奇怪。我可以成功运行示例grid_search_digits.py。但是,我无法对自己的数据进行网格搜索。我有以下设置:importsklearnfromsklearn.svmimportSVCfromsklearn.grid_searchimportGridSearchCVfromsklearn.cross_validationimportLeaveOneOutfromsklearn.metricsimportauc_score#...BuildXandy....tuned_parameters=[{'kernel':['rbf'],'gamma':[1e-3,1e-4],'C'

python - 如何在 heroku cedar 上安装 scikit-learn?

我已经使用this中描述的方法成功安装了numpy和scipy回答。然后我想添加scikit-learn所以一开始我尝试将scikit-learn==0.11添加到requirements.txt并且当推送到heroku时我收到一条错误消息:ImportError:liblapack.so.3gf:cannotopensharedobjectfile:Nosuchfileordirectory所以我在LD_LIBRARY_PATH中添加了我拥有liblapack.so.3gf的路径,但后来我得到了这个:ImportError:libgfortran.so.3:cannotopensha

python - 使用 scikit-learn 和手工计算的 tf-idf 矩阵值的差异

我正在使用scikit-learn来查找tf-idf值。我有一组文档,例如:D1="Theskyisblue."D2="Thesunisbright."D3="Thesunintheskyisbright."我想创建一个这样的矩阵:DocsbluebrightskysunD1tf-idf0.0000000tf-idf0.0000000D20.0000000tf-idf0.0000000tf-idfD30.0000000tf-idftf-idftf-idf所以,我在Python中的代码是:importnltkimportstringfromsklearn.feature_extracti

python - 使用 scikit learn 检索错误分类的文档

我很想知道scikitlearnpython模块中是否有内置函数,可以检索错误分类的文档。这很简单,我通常通过比较预测向量和测试向量并从测试文档数组中检索文档来自己编写它。但我问的是它是否有内置功能,而不是在我编写的每个python代码中复制功能。 最佳答案 如果您有一组文档的真实标签y_test列表,例如["ham","spam","spam","ham"]并将其转换为NumPy数组,然后您可以将其与一行中的预测进行比较:importnumpyasnpy_test=np.asarray(y_test)misclassified=n