sklearn_pca

python - 使用 sklearn 对大型稀疏矩阵执行 PCA

我正在尝试将PCA应用于巨大的稀疏矩阵，在以下链接中它说sklearn的randomizedPCA可以处理scipy稀疏格式的稀疏矩阵。ApplyPCAonverylargesparsematrix但是，我总是出错。有人可以指出我做错了什么。输入矩阵“X_train”包含float64格式的数字:>>>type(X_train)>>>X_train.shape(2365436,1617899)>>>X_train.ndim2>>>X_train[0]'with81storedelementsinCompressedSparseRowformat>我正在尝试:>>>fromsklearn

稀疏 sklearn gt code python scikit-learn sparse-matrix pca svd

python - 如何在 sklearn 中使用 datasets.fetch_mldata()？

我正在尝试为一个简短的机器学习算法运行以下代码:importreimportargparseimportcsvfromcollectionsimportCounterfromsklearnimportdatasetsimportsklearnfromsklearn.datasetsimportfetch_mldatadataDict=datasets.fetch_mldata('MNISTOriginal')在这段代码中，我试图通过sklearn读取mldata.org上的数据集“MNISTOriginal”。这会导致以下错误(有更多行代码，但我在这一行遇到错误):Traceback(

何在 fetch_mldata mio5_utils matlab scipy python numpy machine-learning

python - scikit-learn 中的 PCA 投影和重建

我可以通过以下代码在scikit中执行PCA:X_train有279180行和104列。fromsklearn.decompositionimportPCApca=PCA(n_components=30)X_train_pca=pca.fit_transform(X_train)现在，当我想将特征向量投影到特征空间时，我必须执行以下操作:"""Projection"""comp=pca.components_#30x104com_tr=np.transpose(pca.components_)#104x30proj=np.dot(X_train,com_tr)#279180x104*1

scikit-learn python code train pca machine-learning

python - 如何反转 sklearn.OneHotEncoder 变换以恢复原始数据？

我使用sklearn.OneHotEncoder编码了我的分类数据并将它们喂给随机森林分类器。一切似乎都正常，我得到了我的预测输出。有没有办法反转编码并将我的输出转换回其原始状态？最佳答案解决这个问题的一个很好的系统方法是从一些测试数据开始，然后通过sklearn.OneHotEncoder源与它。如果您不太关心它是如何工作的，只是想要一个快速的答案，请跳到底部。X=np.array([[3,10,15,33,54,55,78,79,80,99],[5,1,3,7,8,12,15,19,20,8]]).Tn_values_Lin

反转 OneHotEncoder code indices features python machine-learning scipy scikit-learn

python scikit错误-没有名为sklearn的模块

当我关注网站(https://www.kaggle.com/wiki/GettingStartedWithPythonForDataScience)并输入pythonmakeSubmission.py时，我收到以下错误消息:ImportError:Nomodulenamedsklearn我想我已经成功安装了以下内容:适用于Windows的Python3.4sciPy、NumPy和matplotlib安装工具scikit学习PyCharm然后我打开“Python3.4命令行”并输入importsys;print(sys.__path__)，但我收到了消息Traceback(mostrec

名为 sklearn section code python scikit-learn

python - sklearn pipeline - 如何对不同的列应用不同的转换

我对sklearn中的管道很陌生，我遇到了这个问题:我有一个混合了文本和数字的数据集，即某些列只有文本，其余列有整数(或float)。我想知道是否可以构建一个管道，例如在文本特征上调用LabelEncoder()并在数字列上调用MinMaxScaler()。我在网络上看到的示例主要指向在整个数据集上使用LabelEncoder()，而不是在选定的列上使用。这可能吗？如果是这样，将不胜感激。最佳答案我通常采用的方法是使用FeatureUnion，使用FunctionTransformer提取相关列。重要提示:您必须使用def定义您

pipeline sklearn code FunctionTransformer section python scikit-learn

python - 加速 sklearn 逻辑回归

我有一个模型，我正在尝试使用sklearn中的LogisticRegression构建，该模型具有几千个特征和大约60,000个样本。我正在尝试拟合模型，它现在已经运行了大约10分钟。我运行它的机器有数GB的RAM和几个内核可供使用，我想知道是否有任何方法可以加快进程编辑这台机器有24个内核，这里是top的输出以给出内存的概念Processes:94total,8running,3stuck,83sleeping,583threads20:10:19LoadAvg:1.49,1.25,1.19CPUusage:4.34%user,0.68%sys,94.96%idleSharedLib

sklearn python code LogisticRegression logistic-regression scikit-learn

python - 如何根据 ROC 结果设置 sklearn 分类器的阈值？

我使用scikit-learn训练了一个ExtraTreesClassifier(gini指数)，它非常适合我的需要。准确性不太好，但使用10折交叉验证，AUC为0.95。我想在我的工作中使用这个分类器。我是ML的新手，所以如果我问你一些概念上的错误，请原谅我。我绘制了一些ROC曲线，据此，我似乎有一个特定的阈值，我的分类器开始表现良好。我想在拟合分类器上设置这个值，所以每次我调用预测时，分类器都会使用该阈值，我可以相信FP和TP率。我也看到了这篇文章(scikit.predict()defaultthreshold)，其中指出阈值不是分类器的通用概念。但由于ExtraTreesCla

sklearn python predict section code scikit-learn classification threshold roc

python - Numpy、Pandas 和 Sklearn 中的多维缩放拟合(ValueError)

我正在尝试使用sklearn、pandas和numpy进行多维缩放。我使用的数据文件有10个数字列，没有缺失值。我正在尝试获取这十维数据并使用sklearn.manifold的多维缩放在二维中将其可视化，如下所示:importnumpyasnpimportpandasaspdfromsklearnimportmanifoldfromsklearn.metricsimporteuclidean_distancesseed=np.random.RandomState(seed=3)data=pd.read_csv('data/big-file.csv')#startsmalldonttak

多维 ValueError similarities sklearn euclidean_distances python numpy pandas scikit-learn

python - sklearn train_test_split on pandas 按多列分层

我是sklearn的新用户，在sklearn.model_selection的train_test_split中遇到了一些意外行为。我有一个pandasdataframe，我想将其分成训练集和测试集。我想在我的dataframe中按至少2列(但最好是4列)对我的数据进行分层。当我尝试这样做时，sklearn没有发出警告，但后来我发现在我的最终数据集中有重复的行。我创建了一个示例测试来展示这种行为:fromsklearn.model_selectionimporttrain_test_splita=np.array([iforiinrange(1000000)])b=[i%10forii

多列 train_test_split code train python pandas scikit-learn

36 37 383940 41 42