草庐IT

$sklearn

全部标签

python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估

我正在对约100万个项目(每个表示为一个约100个特征向量)运行k-means聚类。我已经为各种k运行了聚类,现在想用sklearn中实现的轮廓分数来评估不同的结果。尝试在没有采样的情况下运行它似乎不可行并且需要很长时间,所以我假设我需要使用采样,即:metrics.silhouette_score(feature_matrix,cluster_labels,metric='euclidean',sample_size=???)不过,我不太清楚什么是合适的抽样方法。给定矩阵的大小,是否有关于使用多大样本的经验法则?是取我的分析机可以处理的最大样本更好,还是取更多较小样本的平均值更好?我

python sklearn : what is the difference between accuracy_score and learning_curve score?

我正在使用Pythonsklearn(0.17版)在数据集上选择理想模型。为此,我遵循了以下步骤:使用cross_validation.train_test_split和test_size=0.2拆分数据集。使用GridSearchCV在训练集上选择理想的k最近邻分类器。将GridSearchCV返回的分类器传递给plot_learning_curve。plot_learning_curve给出了如下所示的图。在获得的测试集上运行GridSearchCV返回的分类器。从图中,我们可以看到最大值的分数。训练大小约为0.43。这个分数是sklearn.learning_curve.lear

python - 如何在 sklearn 管道中获取通过特征消除选择的特征名称?

我在我的sklearn管道中使用递归特征消除,管道看起来像这样:fromsklearn.pipelineimportFeatureUnion,Pipelinefromsklearnimportfeature_selectionfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportLinearSVCX=['Iamasentence','anexample']Y=[1,2]X_dev=['anothersentence']#classifierLinearSVC1=LinearSVC(tol

python - KMeans是否在sklearn中自动归一化特征

我想知道KMeans是否会在进行聚类之前自动对特征进行归一化。似乎没有提供输入以请求规范化的选项。 最佳答案 一个区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing用于数据预处理。此外,数据可以通过不同的预处理器进行链式预处理。至于K均值,仅对均值进行归一化通常是不够的。由于K-means对数据中的方差敏感,并且具有较大方差的特征更强调结果,因此人们对不同特征的数据均衡方差进行归一化。所以对于K-means,我建议使用StandardScaler用于数据预处理。不要忘记k-mea

python - 将 SKLearn 癌症数据集加载到 Pandas DataFrame 中

我正在尝试根据键(target_names、target和DESCR)加载sklearn.dataset,但缺少一列。我尝试了各种方法来包含最后一列,但有错误。importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancercancer=load_breast_cancer()printcancer.keys()thekeysare['target_names','data','target','DESCR','feature_names']data=pd.DataFrame(cancer.data,

python - 如何在python sklearn中正确使用featureUnion数字和文本特征

我第一次尝试在sklearn管道中使用featureunion来组合数字(2列)和文本特征(1列)以进行多类分类。fromsklearn.preprocessingimportFunctionTransformerfromsklearn.pipelineimportPipelinefromsklearn.multiclassimportOneVsRestClassifierfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportFeatureUnionget_text_data=Function

python - 访问 classification_report 中的数字 - sklearn

这是sklearn中classification_report的一个简单例子fromsklearn.metricsimportclassification_reporty_true=[0,1,2,2,2]y_pred=[0,0,2,2,1]target_names=['class0','class1','class2']print(classification_report(y_true,y_pred,target_names=target_names))#precisionrecallf1-scoresupport##class00.501.000.671#class10.000.0

python - sklearn 矩阵分解示例

我正在使用当前在http://www.quuxlabs.com/blog上提供的代码效果不错。而且我可以清楚地看到矩阵发生了哪些变化。我还尝试在sklearn.decomposition.NMF上使用sklearn库但是我用相同的输入得到的结果还不够好。也许我遗漏了什么。这是我的示例代码-fromsklearn.decompositionimportNMF,ProjectedGradientNMFR=[[5,3,0,1],[4,0,0,1],[1,1,0,5],[1,0,0,4],[0,1,5,4],]R=numpy.array(R)nmf=NMF(beta=0.001,eta=0.0

python - 如何处理 sklearn GradientBoostingClassifier 中的分类变量?

我正在尝试使用GradientBoostingClassifier训练模型使用分类变量。以下是原始代码示例,仅用于尝试将分类变量输入到GradientBoostingClassifier中。fromsklearnimportdatasetsfromsklearn.ensembleimportGradientBoostingClassifierimportpandasiris=datasets.load_iris()#Useonlydatafor2classes.X=iris.data[(iris.target==0)|(iris.target==1)]Y=iris.target[(ir

python - Sklearn.KMeans() : Get class centroid labels and reference to a dataset

Sci-Kit学习Kmeans和PCA降维我有一个200万行x7列的数据集,其中包含不同的家庭用电量测量值以及每个测量值的日期。日期,Global_active_power,Global_reactive_power,电压,全局强度,Sub_metering_1,Sub_metering_2,Sub_metering_3我将我的数据集放入pandas数据框中,选择除日期列之外的所有列,然后执行交叉验证拆分。importpandasaspdfromsklearn.cross_validationimporttrain_test_splitdata=pd.read_csv('househo