草庐IT

sklearn_pca

全部标签

python - 如何在 sklearn 中使用 OneHotEncoder 的输出?

我有一个带有2个分类变量、ID变量和一个目标变量(用于分类)的PandasDataframe。我设法用OneHotEncoder转换分类值。这导致稀疏矩阵。ohe=OneHotEncoder()#FirstIremappedthestringvaluesinthecategoricalvariablestointegersasOneHotEncoderneedsintegersasinput...remappingcode...ohe.fit(df[['col_a','col_b']])ohe.transform(df[['col_a','col_b']])但我不知道如何在Decisi

python - ImportError:无法从 sklearn.utils.validation 导入名称 check_array

当我从模块sklearn.utils.validation导入函数check_array时,出现导入错误(ImportError:cannotimportnamecheck_array).选项卡完成得到了check_arrays,但我想知道validation.py(sourcecodeonGithub)中只存在一个名为check_array的函数。此外,在scikit-learn/sklearn/cluster/spectral.py中实现的谱聚类算法还使用了from..utils.validationimportcheck_array,而不是check_arrays。我对此很困惑,

python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估

我正在对约100万个项目(每个表示为一个约100个特征向量)运行k-means聚类。我已经为各种k运行了聚类,现在想用sklearn中实现的轮廓分数来评估不同的结果。尝试在没有采样的情况下运行它似乎不可行并且需要很长时间,所以我假设我需要使用采样,即:metrics.silhouette_score(feature_matrix,cluster_labels,metric='euclidean',sample_size=???)不过,我不太清楚什么是合适的抽样方法。给定矩阵的大小,是否有关于使用多大样本的经验法则?是取我的分析机可以处理的最大样本更好,还是取更多较小样本的平均值更好?我

python sklearn : what is the difference between accuracy_score and learning_curve score?

我正在使用Pythonsklearn(0.17版)在数据集上选择理想模型。为此,我遵循了以下步骤:使用cross_validation.train_test_split和test_size=0.2拆分数据集。使用GridSearchCV在训练集上选择理想的k最近邻分类器。将GridSearchCV返回的分类器传递给plot_learning_curve。plot_learning_curve给出了如下所示的图。在获得的测试集上运行GridSearchCV返回的分类器。从图中,我们可以看到最大值的分数。训练大小约为0.43。这个分数是sklearn.learning_curve.lear

python - 如何在 sklearn 管道中获取通过特征消除选择的特征名称?

我在我的sklearn管道中使用递归特征消除,管道看起来像这样:fromsklearn.pipelineimportFeatureUnion,Pipelinefromsklearnimportfeature_selectionfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportLinearSVCX=['Iamasentence','anexample']Y=[1,2]X_dev=['anothersentence']#classifierLinearSVC1=LinearSVC(tol

python - 我的 PCA 有什么问题?

我的代码:fromnumpyimport*defpca(orig_data):data=array(orig_data)data=(data-data.mean(axis=0))/data.std(axis=0)u,s,v=linalg.svd(data)prints#shouldbes**2instead!printvdefload_iris(path):lines=[]withopen(path)asinput_file:lines=input_file.readlines()data=[]forlineinlines:cur_line=line.rstrip().split(',

python - KMeans是否在sklearn中自动归一化特征

我想知道KMeans是否会在进行聚类之前自动对特征进行归一化。似乎没有提供输入以请求规范化的选项。 最佳答案 一个区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing用于数据预处理。此外,数据可以通过不同的预处理器进行链式预处理。至于K均值,仅对均值进行归一化通常是不够的。由于K-means对数据中的方差敏感,并且具有较大方差的特征更强调结果,因此人们对不同特征的数据均衡方差进行归一化。所以对于K-means,我建议使用StandardScaler用于数据预处理。不要忘记k-mea

python - 将 SKLearn 癌症数据集加载到 Pandas DataFrame 中

我正在尝试根据键(target_names、target和DESCR)加载sklearn.dataset,但缺少一列。我尝试了各种方法来包含最后一列,但有错误。importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancercancer=load_breast_cancer()printcancer.keys()thekeysare['target_names','data','target','DESCR','feature_names']data=pd.DataFrame(cancer.data,

python - 如何在python sklearn中正确使用featureUnion数字和文本特征

我第一次尝试在sklearn管道中使用featureunion来组合数字(2列)和文本特征(1列)以进行多类分类。fromsklearn.preprocessingimportFunctionTransformerfromsklearn.pipelineimportPipelinefromsklearn.multiclassimportOneVsRestClassifierfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportFeatureUnionget_text_data=Function

python - 访问 classification_report 中的数字 - sklearn

这是sklearn中classification_report的一个简单例子fromsklearn.metricsimportclassification_reporty_true=[0,1,2,2,2]y_pred=[0,0,2,2,1]target_names=['class0','class1','class2']print(classification_report(y_true,y_pred,target_names=target_names))#precisionrecallf1-scoresupport##class00.501.000.671#class10.000.0