SciKit-Learn

python - 主成分分析不起作用

我正在尝试对包含图像的数据集进行主成分分析，但每当我想从sklearn.decomposition模块应用pca.transform时，我都会收到此错误:*AttributeError:'PCA'objecthasno属性“mean_”*。我知道这个错误意味着什么，但我不知道如何解决它。我想你们中的一些人知道如何解决这个问题。谢谢你的帮助我的代码:fromsklearnimportsvmimportnumpyasnpimportglobimportosfromPILimportImagefromsklearn.decompositionimportPCAimage_dir1="C:\U

python - AttributeError: '_io.TextIOWrapper' 对象没有属性 'lower'

我正在尝试运行堆栈溢出中提供的示例here.我又把代码复制过来了:fromsklearn.feature_extraction.textimportTfidfVectorizertext_files=['file1.txt','file2.txt']documents=[open(f)forfintext_files]tfidf=TfidfVectorizer().fit_transform(documents)#noneedtonormalize,sinceVectorizerwillreturnnormalizedtf-idfpairwise_similarity=tfidf*tf

amp 39 code section text_files python attributeerror scikit-learn

python - 在 scikit-learn 中查找和利用来自 PCA 的特征值和特征向量

我一直在使用在scikit-learn中实现的PCA。但是，我想找到拟合训练数据集后产生的特征值和特征向量。文档中没有提及两者。其次，这些特征值和特征向量本身是否可以用作分类目的的特征？最佳答案我在这里假设特征向量是指协方差矩阵的特征向量。假设您在p维空间中有n个数据点，X是您的点的pxn矩阵，那么主成分的方向是协方差矩阵XXT的特征向量。您可以通过访问PCA对象的components_属性从sklearn获取这些特征向量的方向。这可以按如下方式完成:fromsklearn.decompositionimportPCAimpor

scikit-learn 用来 code section 维空间 python machine-learning pca

python - 如何对 pandas DataFrame 中的值进行二值化？

我有以下数据框:df=pd.DataFrame(['Male','Female','Female','Unknown','Male'],columns=['Gender'])我想将其转换为包含“男性”、“女性”和“未知”列的DataFrame，值0和1表示性别。GenderMaleFemaleMale10Female01....为此，我编写了一个函数并使用map调用该函数。defisValue(x,value):if(x==value):return1else:return0forvalueindf['Gender'].unique():df[str(value)]=df['Gende

DataFrame python 39 code section pandas scikit-learn

python - sklearn Latent Dirichlet 分配变换 v. Fittransform

我正在使用sklearn的NMF和LDA子模块来分析未标记的文本。我阅读了文档，但不确定这些模块(NMF和LDA)中的变换函数是否与R的主题模型中的后验函数相同(请参阅PredictingLDAtopicsfornewdata)。基本上，我正在寻找一个函数，它可以让我使用在训练集数据上训练的模型来预测测试集中的主题。我预测了整个数据集的主题。然后我将数据分成训练集和测试集，在训练集上训练模型并使用该模型转换测试集。虽然预计我不会得到相同的结果，但比较这两个运行主题并不能向我保证转换函数与R的包具有相同的功能。非常感谢您的回复。谢谢最佳答案

v.Fittransform section code unnormalized python scikit-learn

python - 导入错误 : cannot import name 'logsumexp' when importing sklearn. model_selection

我试图在python3.5的anaconda环境下用JupiterNotebook导入sklearn.model_selection，但我被警告说我没有“model_selection”模块，所以我做了conda更新scikit-learn。之后，我在导入sklearn.model_selection时收到了ImportError:cannotimportname'logsumexp'的消息。我重新安装了sklearn和scipy，但仍然收到同样的错误信息。我可以提点建议吗？最佳答案我刚才遇到了完全相同的问题。在我更新了scik

model_selection amp code section python scikit-learn

python - 从文件加载数据集，与 sklearn/numpy 一起使用，包括标签

我看到通过sklearn我们可以使用一些预定义的数据集，例如mydataset=datasets.load_digits()我们可以获得数据集mydataset的数组(numpy数组？).data和相应标签的数组mydataset.target。但是我想加载我自己的数据集以便能够将它与sklearn一起使用。我应该如何以及以哪种格式加载我的数据？我的文件具有以下格式(每行是一个数据点):-0.2080,0.3480,0.3280,0.5040,0.9320,1.0000,label1-0.2864,0.1992,0.2822,0.4398,0.7012,0.7800,label3...

sklearn python code section numpy scikit-learn dataset

python - 使用 Pandas 为 Scikit-Learn 准备 CSV 文件数据？

我有一个没有标题的csv文件，我正在使用pandas将其导入python。最后一列是目标类，其余列是图像的像素值。我如何继续使用pandas(80/20)将此数据集拆分为训练集和测试集？此外，一旦完成，我将如何拆分这些集合中的每一个，以便我可以定义x(除最后一列之外的所有列)和y(最后一列)？我使用以下方法导入了我的文件:dataset=pd.read_csv('example.csv',header=None,sep=',')谢谢最佳答案我建议使用sklearn的train_test_splitfromsklearn.mode

Scikit-Learn python section train_test_split train csv pandas

python - 如何查出准确率？

我想知道sklearn中是否有一个函数对应于准确度(实际数据和预测数据之间的差异)以及如何打印出来？fromsklearnimportdatasetsiris=datasets.load_iris()fromsklearn.naive_bayesimportGaussianNBnaive_classifier=GaussianNB()y=naive_classifier.fit(iris.data,iris.target).predict(iris.data)pr=naive_classifier.predict(iris.data) 最佳答案

准确率查出 code sklearn section python scikit-learn naivebayes

python - sklearn StandardScaler 返回全零

我有一个从以前的模型中保存的sklearnStandardScaler，我正在尝试将其应用于新数据scaler=myOldStandardScalerprint("ORIG:",X)print("CLASS:",X.__class__)X=scaler.fit_transform(X)print("SCALED:",X)我有三个观察值，每个观察值有2000个特征。如果我分别运行每个观察，我会得到一个全为零的输出。ORIG:[[3.19029839e-040.00000000e+001.90985485e-06...,0.00000000e+000.00000000e+000.00000

StandardScaler sklearn code 0.00000000 python scikit-learn

9 10 111213 14 15