scikit_草庐IT

python - GridSearchCV 在 scikit-learn 中的小数据集上非常慢

这很奇怪。我可以成功运行示例grid_search_digits.py。但是，我无法对自己的数据进行网格搜索。我有以下设置:importsklearnfromsklearn.svmimportSVCfromsklearn.grid_searchimportGridSearchCVfromsklearn.cross_validationimportLeaveOneOutfromsklearn.metricsimportauc_score#...BuildXandy....tuned_parameters=[{'kernel':['rbf'],'gamma':[1e-3,1e-4],'C'

python - 如何在 heroku cedar 上安装 scikit-learn？

我已经使用this中描述的方法成功安装了numpy和scipy回答。然后我想添加scikit-learn所以一开始我尝试将scikit-learn==0.11添加到requirements.txt并且当推送到heroku时我收到一条错误消息:ImportError:liblapack.so.3gf:cannotopensharedobjectfile:Nosuchfileordirectory所以我在LD_LIBRARY_PATH中添加了我拥有liblapack.so.3gf的路径，但后来我得到了这个:ImportError:libgfortran.so.3:cannotopensha

何在 scikit-learn heroku code section python

python - 使用 scikit-learn 和手工计算的 tf-idf 矩阵值的差异

我正在使用scikit-learn来查找tf-idf值。我有一组文档，例如:D1="Theskyisblue."D2="Thesunisbright."D3="Thesunintheskyisbright."我想创建一个这样的矩阵:DocsbluebrightskysunD1tf-idf0.0000000tf-idf0.0000000D20.0000000tf-idf0.0000000tf-idfD30.0000000tf-idftf-idftf-idf所以，我在Python中的代码是:importnltkimportstringfromsklearn.feature_extracti

scikit-learn python code 0.0000000 tf-idf matrix machine-learning

python - 使用 scikit learn 检索错误分类的文档

我很想知道scikitlearnpython模块中是否有内置函数，可以检索错误分类的文档。这很简单，我通常通过比较预测向量和测试向量并从测试文档数组中检索文档来自己编写它。但我问的是它是否有内置功能，而不是在我编写的每个python代码中复制功能。最佳答案如果您有一组文档的真实标签y_test列表，例如["ham","spam","spam","ham"]并将其转换为NumPy数组，然后您可以将其与一行中的预测进行比较:importnumpyasnpy_test=np.asarray(y_test)misclassified=n

python scikit section code test numpy machine-learning scipy scikit-learn

python - 在 scikit-learn 中实现 K 邻居分类器，每个对象具有 3 个特征

我想用scikit-learn模块(http://scikit-learn.org/dev/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)实现一个KNeighborsClassifier我从我的图像中检索坚固性、伸长率和Humoments特征。我如何准备这些数据以进行培训和验证？我必须为我从图像中检索到的每个对象创建一个包含3个特征[Hm,e,s]的列表(从1个图像中有更多对象)？我读了这个例子(http://scikit-learn.org/dev/modules/generated/sklearn.nei

scikit-learn python code KNeighborsClassifier neighbors machine-learning nearest-neighbor classification

python - scikit-learn roc_auc_score() 返回精度值

我正在尝试使用sklearn.metrics.roc_auc_score使用以下方法计算ROC曲线下的面积:roc_auc=sklearn.metrics.roc_auc_score(actual,predicted)其中actual是一个带有真实分类标签的二元向量，predicted是一个带有我的分类器预测的分类标签的二元向量。但是，我得到的roc_auc的值与准确度值(标签被正确预测的样本的比例)完全相似。这不是一次性的事情。我在不同的参数值上尝试我的分类器，每次我都得到相同的结果。我在这里做错了什么？最佳答案这是因为您传递

roc_auc_score scikit-learn code section 的 python scikits

python - 如何将多项式变换应用于 scikit 学习中的特征子集

Scikitlearn的PolynomialFeatures促进多项式特征生成。这是一个简单的例子:importnumpyasnpimportpandasaspdfromsklearn.preprocessingimportPolynomialFeatures#Exampledata:X=np.arange(6).reshape(3,2)#Worksfinepoly=PolynomialFeatures(2)pd.DataFrame(poly.fit_transform(X))012345010100111234692145162025问题:是否可以仅将多项式变换应用于指定的特征列表？

python scikit 39 PolynomialFeatures sklearn scikit-learn

python - 如何使用 scikit-learn 获得优势比和其他相关特征

我正在经历这个oddsratiosinlogisticregressiontutorial，并试图用scikit-learn的逻辑回归模块得到完全相同的结果。使用下面的代码，我可以获得系数和截距，但我找不到找到教程中列出的模型的其他属性的方法，例如log-likelyhood、OddsRatio、Std。Err.,z,P>|z|,[95%Conf.间隔]。如果有人能告诉我如何用sklearn包计算它们，我将不胜感激。importpandasaspdfromsklearn.linear_modelimportLogisticRegressionurl='https://stats.idr

scikit-learn python section code https

python - Pandas 和 scikit-learn : KeyError: [. ...] 不在索引中

我不明白为什么在运行此代码时会出现错误KeyError:'[135113521353...135001350113502]notinindex':cv=KFold(n_splits=10)fortrain_index,test_indexincv.split(X):f_train_X,f_valid_X=X[train_index],X[test_index]f_train_y,f_valid_y=y[train_index],y[test_index]我使用X(一个Pandas数据框)来拆分Icv.split(X)。X.shapey.shapeOut:(13503,17)Out:(1

scikit-learn KeyError code index train python pandas machine-learning

python - scikit cosine_similarity 与 pairwise_distances

Scikit-learn的sklearn.metrics.pairwise.cosine_similarity和sklearn.metrics.pairwise.pairwise_distances(..metric="cosine")有什么区别？fromsklearn.feature_extraction.textimportTfidfVectorizerdocuments=("MacbookPro15'SilverGraywithNvidiaGPU","MacbookGPU")tfidf_vectorizer=TfidfVectorizer()tfidf_matrix=tfidf_

pairwise_distances cosine_similarity pairwise section cosine python nlp scikit-learn