$sklearn_草庐IT

python - sklearn Kfold 访问单折而不是 for 循环

在使用cross_validation.KFold(n,n_folds=folds)之后，我想访问用于训练和测试单折的索引，而不是遍历所有折。让我们来看示例代码:fromsklearnimportcross_validationX=np.array([[1,2],[3,4],[1,2],[3,4]])y=np.array([1,2,3,4])kf=cross_validation.KFold(4,n_folds=2)>>>print(kf)sklearn.cross_validation.KFold(n=4,n_folds=2,shuffle=False,random_state=No

python - 如何在 sklearn 中编码分类变量？

我正在尝试使用UCI存储库中的汽车评估数据集，我想知道是否有一种方便的方法可以在sklearn中对分类变量进行二值化。一种方法是使用LabelBinarizer的DictVectorizer但这里我得到k不同的特征，而你应该只有k-1以避免共线性化。我想我可以编写自己的函数并删除一列，但是这种簿记很乏味，有没有一种简单的方法可以执行此类转换并得到一个稀疏矩阵？最佳答案如果您的数据是pandasDataFrame，那么您可以简单地调用get_dummies。假设您的数据框是df，并且您希望每个级别的变量“键”都有一个二进制变量。您

何在 sklearn section stackoverflow get_dummies python machine-learning scikit-learn

python - sklearn LogisticRegression 和更改分类的默认阈值

我正在使用sklearn包中的LogisticRegression，并且有一个关于分类的快速问题。我为我的分类器构建了一条ROC曲线，结果证明我的训练数据的最佳阈值约为0.25。我假设创建预测时的默认阈值是0.5。在进行10折交叉验证时，如何更改此默认设置以了解我的模型的准确性？基本上，我希望我的模型为大于0.25而不是0.5的任何人预测“1”。我一直在查看所有文档，但似乎一无所获。最佳答案我想给出一个实际的答案fromsklearn.datasetsimportmake_classificationfromsklearn.mo

LogisticRegression sklearn code section score python scikit-learn classification regression

python - 使用 sklearn 对大型稀疏矩阵执行 PCA

我正在尝试将PCA应用于巨大的稀疏矩阵，在以下链接中它说sklearn的randomizedPCA可以处理scipy稀疏格式的稀疏矩阵。ApplyPCAonverylargesparsematrix但是，我总是出错。有人可以指出我做错了什么。输入矩阵“X_train”包含float64格式的数字:>>>type(X_train)>>>X_train.shape(2365436,1617899)>>>X_train.ndim2>>>X_train[0]'with81storedelementsinCompressedSparseRowformat>我正在尝试:>>>fromsklearn

稀疏 sklearn gt code python scikit-learn sparse-matrix pca svd

python - 如何在 sklearn 中使用 datasets.fetch_mldata()？

我正在尝试为一个简短的机器学习算法运行以下代码:importreimportargparseimportcsvfromcollectionsimportCounterfromsklearnimportdatasetsimportsklearnfromsklearn.datasetsimportfetch_mldatadataDict=datasets.fetch_mldata('MNISTOriginal')在这段代码中，我试图通过sklearn读取mldata.org上的数据集“MNISTOriginal”。这会导致以下错误(有更多行代码，但我在这一行遇到错误):Traceback(

何在 fetch_mldata mio5_utils matlab scipy python numpy machine-learning

python - 如何反转 sklearn.OneHotEncoder 变换以恢复原始数据？

我使用sklearn.OneHotEncoder编码了我的分类数据并将它们喂给随机森林分类器。一切似乎都正常，我得到了我的预测输出。有没有办法反转编码并将我的输出转换回其原始状态？最佳答案解决这个问题的一个很好的系统方法是从一些测试数据开始，然后通过sklearn.OneHotEncoder源与它。如果您不太关心它是如何工作的，只是想要一个快速的答案，请跳到底部。X=np.array([[3,10,15,33,54,55,78,79,80,99],[5,1,3,7,8,12,15,19,20,8]]).Tn_values_Lin

反转 OneHotEncoder code indices features python machine-learning scipy scikit-learn

python scikit错误-没有名为sklearn的模块

当我关注网站(https://www.kaggle.com/wiki/GettingStartedWithPythonForDataScience)并输入pythonmakeSubmission.py时，我收到以下错误消息:ImportError:Nomodulenamedsklearn我想我已经成功安装了以下内容:适用于Windows的Python3.4sciPy、NumPy和matplotlib安装工具scikit学习PyCharm然后我打开“Python3.4命令行”并输入importsys;print(sys.__path__)，但我收到了消息Traceback(mostrec

名为 sklearn section code python scikit-learn

python - sklearn pipeline - 如何对不同的列应用不同的转换

我对sklearn中的管道很陌生，我遇到了这个问题:我有一个混合了文本和数字的数据集，即某些列只有文本，其余列有整数(或float)。我想知道是否可以构建一个管道，例如在文本特征上调用LabelEncoder()并在数字列上调用MinMaxScaler()。我在网络上看到的示例主要指向在整个数据集上使用LabelEncoder()，而不是在选定的列上使用。这可能吗？如果是这样，将不胜感激。最佳答案我通常采用的方法是使用FeatureUnion，使用FunctionTransformer提取相关列。重要提示:您必须使用def定义您

pipeline sklearn code FunctionTransformer section python scikit-learn

python - 加速 sklearn 逻辑回归

我有一个模型，我正在尝试使用sklearn中的LogisticRegression构建，该模型具有几千个特征和大约60,000个样本。我正在尝试拟合模型，它现在已经运行了大约10分钟。我运行它的机器有数GB的RAM和几个内核可供使用，我想知道是否有任何方法可以加快进程编辑这台机器有24个内核，这里是top的输出以给出内存的概念Processes:94total,8running,3stuck,83sleeping,583threads20:10:19LoadAvg:1.49,1.25,1.19CPUusage:4.34%user,0.68%sys,94.96%idleSharedLib

sklearn python code LogisticRegression logistic-regression scikit-learn

python - 如何根据 ROC 结果设置 sklearn 分类器的阈值？

我使用scikit-learn训练了一个ExtraTreesClassifier(gini指数)，它非常适合我的需要。准确性不太好，但使用10折交叉验证，AUC为0.95。我想在我的工作中使用这个分类器。我是ML的新手，所以如果我问你一些概念上的错误，请原谅我。我绘制了一些ROC曲线，据此，我似乎有一个特定的阈值，我的分类器开始表现良好。我想在拟合分类器上设置这个值，所以每次我调用预测时，分类器都会使用该阈值，我可以相信FP和TP率。我也看到了这篇文章(scikit.predict()defaultthreshold)，其中指出阈值不是分类器的通用概念。但由于ExtraTreesCla

sklearn python predict section code scikit-learn classification threshold roc