$sklearn

python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估

我正在对约100万个项目(每个表示为一个约100个特征向量)运行k-means聚类。我已经为各种k运行了聚类，现在想用sklearn中实现的轮廓分数来评估不同的结果。尝试在没有采样的情况下运行它似乎不可行并且需要很长时间，所以我假设我需要使用采样，即:metrics.silhouette_score(feature_matrix,cluster_labels,metric='euclidean',sample_size=???)不过，我不太清楚什么是合适的抽样方法。给定矩阵的大小，是否有关于使用多大样本的经验法则？是取我的分析机可以处理的最大样本更好，还是取更多较小样本的平均值更好？我

silhouette k-means section 的 strong python scikit-learn cluster-analysis

python sklearn : what is the difference between accuracy_score and learning_curve score?

我正在使用Pythonsklearn(0.17版)在数据集上选择理想模型。为此，我遵循了以下步骤:使用cross_validation.train_test_split和test_size=0.2拆分数据集。使用GridSearchCV在训练集上选择理想的k最近邻分类器。将GridSearchCV返回的分类器传递给plot_learning_curve。plot_learning_curve给出了如下所示的图。在获得的测试集上运行GridSearchCV返回的分类器。从图中，我们可以看到最大值的分数。训练大小约为0.43。这个分数是sklearn.learning_curve.lear

score accuracy_score code learning test python scikit-learn

python - 如何在 sklearn 管道中获取通过特征消除选择的特征名称？

我在我的sklearn管道中使用递归特征消除，管道看起来像这样:fromsklearn.pipelineimportFeatureUnion,Pipelinefromsklearnimportfeature_selectionfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportLinearSVCX=['Iamasentence','anexample']Y=[1,2]X_dev=['anothersentence']#classifierLinearSVC1=LinearSVC(tol

何在 sklearn 39 feature pipeline python machine-learning scikit-learn

python - KMeans是否在sklearn中自动归一化特征

我想知道KMeans是否会在进行聚类之前自动对特征进行归一化。似乎没有提供输入以请求规范化的选项。最佳答案一个区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing用于数据预处理。此外，数据可以通过不同的预处理器进行链式预处理。至于K均值，仅对均值进行归一化通常是不够的。由于K-means对数据中的方差敏感，并且具有较大方差的特征更强调结果，因此人们对不同特征的数据均衡方差进行归一化。所以对于K-means，我建议使用StandardScaler用于数据预处理。不要忘记k-mea

sklearn python section preprocessing scikit-learn

python - 将 SKLearn 癌症数据集加载到 Pandas DataFrame 中

我正在尝试根据键(target_names、target和DESCR)加载sklearn.dataset，但缺少一列。我尝试了各种方法来包含最后一列，但有错误。importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancercancer=load_breast_cancer()printcancer.keys()thekeysare['target_names','data','target','DESCR','feature_names']data=pd.DataFrame(cancer.data,

癌症 DataFrame cancer section 39 python numpy scikit-learn

python - 如何在python sklearn中正确使用featureUnion数字和文本特征

我第一次尝试在sklearn管道中使用featureunion来组合数字(2列)和文本特征(1列)以进行多类分类。fromsklearn.preprocessingimportFunctionTransformerfromsklearn.pipelineimportPipelinefromsklearn.multiclassimportOneVsRestClassifierfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportFeatureUnionget_text_data=Function

本特 python 39 code Pipeline scikit-learn

python - 访问 classification_report 中的数字 - sklearn

这是sklearn中classification_report的一个简单例子fromsklearn.metricsimportclassification_reporty_true=[0,1,2,2,2]y_pred=[0,0,2,2,1]target_names=['class0','class1','class2']print(classification_report(y_true,y_pred,target_names=target_names))#precisionrecallf1-scoresupport##class00.501.000.671#class10.000.0

classification_report classification code section python scikit-learn

python - sklearn 矩阵分解示例

我正在使用当前在http://www.quuxlabs.com/blog上提供的代码效果不错。而且我可以清楚地看到矩阵发生了哪些变化。我还尝试在sklearn.decomposition.NMF上使用sklearn库但是我用相同的输入得到的结果还不够好。也许我遗漏了什么。这是我的示例代码-fromsklearn.decompositionimportNMF,ProjectedGradientNMFR=[[5,3,0,1],[4,0,0,1],[1,1,0,5],[1,0,0,4],[0,1,5,4],]R=numpy.array(R)nmf=NMF(beta=0.001,eta=0.0

sklearn python section decomposition scikit-learn matrix-factorization

python - 如何处理 sklearn GradientBoostingClassifier 中的分类变量？

我正在尝试使用GradientBoostingClassifier训练模型使用分类变量。以下是原始代码示例，仅用于尝试将分类变量输入到GradientBoostingClassifier中。fromsklearnimportdatasetsfromsklearn.ensembleimportGradientBoostingClassifierimportpandasiris=datasets.load_iris()#Useonlydatafor2classes.X=iris.data[(iris.target==0)|(iris.target==1)]Y=iris.target[(ir

GradientBoostingClassifier 何处 indices train python machine-learning scikit-learn decision-tree ensemble-learning

python - Sklearn.KMeans() : Get class centroid labels and reference to a dataset

Sci-Kit学习Kmeans和PCA降维我有一个200万行x7列的数据集，其中包含不同的家庭用电量测量值以及每个测量值的日期。日期，Global_active_power,Global_reactive_power,电压，全局强度，Sub_metering_1，Sub_metering_2，Sub_metering_3我将我的数据集放入pandas数据框中，选择除日期列之外的所有列，然后执行交叉验证拆分。importpandasaspdfromsklearn.cross_validationimporttrain_test_splitdata=pd.read_csv('househo

reference centroid 39 li code python date svm k-means pca

6 7 8910 11 12