SciKit-Learn

python - 如何仅规范化 scikit-learn 中的某些列？

我有类似下面的数据:[[0,4,15][0,3,7][1,5,9][2,4,15]]我使用了oneHotEncoderhttp://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.fit_transform预处理这些数据，使其适合线性回归给我:[[1,0,0,4,15][1,0,0,3,7][0,1,0,5,9][0,0,1,4,15]]但是，我希望规范化这些数据。到目前为止，我只是像这样规范化数据

python sklearn : what is the difference between accuracy_score and learning_curve score?

我正在使用Pythonsklearn(0.17版)在数据集上选择理想模型。为此，我遵循了以下步骤:使用cross_validation.train_test_split和test_size=0.2拆分数据集。使用GridSearchCV在训练集上选择理想的k最近邻分类器。将GridSearchCV返回的分类器传递给plot_learning_curve。plot_learning_curve给出了如下所示的图。在获得的测试集上运行GridSearchCV返回的分类器。从图中，我们可以看到最大值的分数。训练大小约为0.43。这个分数是sklearn.learning_curve.lear

score accuracy_score code learning test python scikit-learn

python - 如何在 sklearn 管道中获取通过特征消除选择的特征名称？

我在我的sklearn管道中使用递归特征消除，管道看起来像这样:fromsklearn.pipelineimportFeatureUnion,Pipelinefromsklearnimportfeature_selectionfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.svmimportLinearSVCX=['Iamasentence','anexample']Y=[1,2]X_dev=['anothersentence']#classifierLinearSVC1=LinearSVC(tol

何在 sklearn 39 feature pipeline python machine-learning scikit-learn

python - 为什么我的 VotingClassifier 准确性低于我的个人分类器？

我正在尝试使用scikit-learn中的VotingClassifier()创建一个包含三个分类器(随机森林、支持向量机和XGBoost)的集合。但是，我发现集成的准确度实际上降低了而不是增加了。我不知道为什么。代码如下:fromsklearn.ensembleimportVotingClassifiereclf=VotingClassifier(estimators=[('rf',rf_optimized),('svc',svc_optimized),('xgb',xgb_optimized)],voting='soft',weights=[1,1,2])forclf,labeli

VotingClassifier python section 39 machine-learning scikit-learn xgboost ensemble-learning

python - 将大型 numpy 数组拆分为训练和测试的内存有效方法

我有一个很大的numpy数组，当我运行scikitlearn的train_test_split将数组拆分为训练和测试数据时，我总是会遇到内存错误。拆分成训练和测试的内存效率更高的方法是什么？为什么train_test_split会导致这种情况？以下代码导致内存错误并导致崩溃importnumpyasnpfromsklearn.cross_validationimporttrain_test_splitX=np.random.random((10000,70000))Y=np.random.random((10000,))X_train,X_test,Y_train,Y_test=tra

训练大型 test train section python arrays scikit-learn

python - 从直方图制作概率分布函数 (PDF)

假设我有几个直方图，每个直方图在不同bin位置(在实轴上)都有计数。例如defgenerate_random_histogram():#Randombinlocationsbetween0and100bin_locations=np.random.rand(10,)*100bin_locations.sort()#Randomcountsbetween0and50onthoselocationsbin_counts=np.random.randint(50,size=len(bin_locations))return{'loc':bin_locations,'count':bin_co

python PDF bin locations bin_locations scipy scikit-learn statsmodels pymc

python - KMeans是否在sklearn中自动归一化特征

我想知道KMeans是否会在进行聚类之前自动对特征进行归一化。似乎没有提供输入以请求规范化的选项。最佳答案一个区分数据预处理(归一化、分箱、加权等)和机器学习算法应用。使用sklearn.preprocessing用于数据预处理。此外，数据可以通过不同的预处理器进行链式预处理。至于K均值，仅对均值进行归一化通常是不够的。由于K-means对数据中的方差敏感，并且具有较大方差的特征更强调结果，因此人们对不同特征的数据均衡方差进行归一化。所以对于K-means，我建议使用StandardScaler用于数据预处理。不要忘记k-mea

sklearn python section preprocessing scikit-learn

python - 通过 MultiOutputRegressor 进行网格搜索？

让我们考虑一个多元回归问题(2个响应变量:纬度和经度)。目前，支持向量回归sklearn.svm.SVR等一些机器学习模型实现目前不提供对多元回归的原始支持。为此，可以使用sklearn.multioutput.MultiOutputRegressor。示例:fromsklearn.multioutputimportMultiOutputRegressorsvr_multi=MultiOutputRegressor(SVR(),n_jobs=-1)#Fitthealgorithmonthedatasvr_multi.fit(X_train,y_train)y_pred=svr_mult

MultiOutputRegressor python code section machine-learning scikit-learn regression

python - 将 SKLearn 癌症数据集加载到 Pandas DataFrame 中

我正在尝试根据键(target_names、target和DESCR)加载sklearn.dataset，但缺少一列。我尝试了各种方法来包含最后一列，但有错误。importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancercancer=load_breast_cancer()printcancer.keys()thekeysare['target_names','data','target','DESCR','feature_names']data=pd.DataFrame(cancer.data,

癌症 DataFrame cancer section 39 python numpy scikit-learn

python - 如何在python sklearn中正确使用featureUnion数字和文本特征

我第一次尝试在sklearn管道中使用featureunion来组合数字(2列)和文本特征(1列)以进行多类分类。fromsklearn.preprocessingimportFunctionTransformerfromsklearn.pipelineimportPipelinefromsklearn.multiclassimportOneVsRestClassifierfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportFeatureUnionget_text_data=Function

本特 python 39 code Pipeline scikit-learn

20 21 222324 25 26