SKLEARN

python - scikit-learn 管道中具有递归特征消除的网格搜索返回错误

我正在尝试使用scikit-learn在管道中链接网格搜索和递归特征消除。带有“裸”分类器的GridSearchCV和RFE工作正常:fromsklearn.datasetsimportmake_friedman1fromsklearnimportfeature_selectionfromsklearn.grid_searchimportGridSearchCVfromsklearn.svmimportSVRX,y=make_friedman1(n_samples=50,n_features=10,random_state=0)est=SVR(kernel="linear")selec

python - 如何处理 sklearn GradientBoostingClassifier 中的分类变量？

我正在尝试使用GradientBoostingClassifier训练模型使用分类变量。以下是原始代码示例，仅用于尝试将分类变量输入到GradientBoostingClassifier中。fromsklearnimportdatasetsfromsklearn.ensembleimportGradientBoostingClassifierimportpandasiris=datasets.load_iris()#Useonlydatafor2classes.X=iris.data[(iris.target==0)|(iris.target==1)]Y=iris.target[(ir

GradientBoostingClassifier 何处 indices train python machine-learning scikit-learn decision-tree ensemble-learning

python - Sklearn.KMeans() : Get class centroid labels and reference to a dataset

Sci-Kit学习Kmeans和PCA降维我有一个200万行x7列的数据集，其中包含不同的家庭用电量测量值以及每个测量值的日期。日期，Global_active_power,Global_reactive_power,电压，全局强度，Sub_metering_1，Sub_metering_2，Sub_metering_3我将我的数据集放入pandas数据框中，选择除日期列之外的所有列，然后执行交叉验证拆分。importpandasaspdfromsklearn.cross_validationimporttrain_test_splitdata=pd.read_csv('househo

reference centroid 39 li code python date svm k-means pca

python - sklearn 逻辑回归 - 重要特征

我很确定以前有人问过这个问题，但我找不到答案在python上使用sklearn运行逻辑回归，我能够转换使用Transform方法将我的数据集转换为最重要的特征classf=linear_model.LogisticRegression()func=classf.fit(Xtrain,ytrain)reduced_train=func.transform(Xtrain)我如何判断哪些功能被选为最重要的？更一般地说，如何计算数据集中每个特征的p值？最佳答案正如上面评论中所建议的，您可以(并且应该)在拟合之前缩放数据，从而使系数具有可

sklearn python feature_importance section importance scikit-learn feature-selection

python - 使用 joblib 的 sklearn 转储模型，转储多个文件。哪个是正确的模型？

我做了一个示例程序来使用sklearn训练SVM。这是代码fromsklearnimportsvmfromsklearnimportdatasetsfromsklearn.externalsimportjoblibclf=svm.SVC()iris=datasets.load_iris()X,y=iris.data,iris.targetclf.fit(X,y)print(clf.predict(X))joblib.dump(clf,'clf.pkl')当我转储模型文件时，我得到了这个数量的文件。:['clf.pkl'、'clf.pkl_01.npy'、'clf.pkl_02.npy'

sklearn python vector joblib pkl machine-learning scikit-learn

python - Sklearn 线性回归 - "IndexError: tuple index out of range"

我有一个“.dat”文件，其中保存了X和Y的值(所以一个元组(n,2)，其中n是行数)。importnumpyasnpimportmatplotlib.pyplotaspltimportscipy.interpolateasinterpfromsklearnimportlinear_modelin_file=open(path,"r")text=np.loadtxt(in_file)in_file.close()x=np.array(text[:,0])y=np.array(text[:,1])我为linear_model.LinearRegression()创建了一个实例，但是当我调

IndexError amp code gt linear_model python scikit-learn

python - Sklearn TFIDF 矢量器作为并行作业运行

如何运行sklearnTFIDF向量化器(和COUNT向量化器)以作为并行作业运行？类似于其他sklearn模型中的n_jobs=-1参数。最佳答案这不是直接可行的，因为没有办法并行化/分配对这些向量化器所需的词汇表的访问。要执行并行文档矢量化，请使用HashingVectorizer反而。scikit文档提供anexample使用此矢量化器批量训练(和评估)分类器。类似的工作流程也适用于并行化，因为输入项被映射到相同的向量索引，而并行工作人员之间没有任何通信。只需分别计算部分术语文档矩阵，并在所有作业完成后将它们连接起来。

量器 Sklearn section 词汇表 noreferrer python scikit-learn

python - 使用部分拟合的 sklearn 投票合奏

有人可以告诉我如何使用部分拟合在sklearn中使用集成。我不想重新训练我的模型。或者，我们可以通过预训练模型进行集成吗？例如，我已经看到投票分类器不支持使用部分拟合进行训练。最佳答案 Mlxtend库有一个VotingEnsemble的实现，它允许您传入预拟合模型。例如，如果您有三个预训练模型clf1、clf2、clf3。以下代码将起作用。frommlxtend.classifierimportEnsembleVoteClassifierimportcopyeclf=EnsembleVoteClassifier(clfs=[cl

合奏 sklearn section EnsembleVoteClassifier 训练 python machine-learning scikit-learn ensemble-learning

python - Sklearn 预处理 - PolynomialFeatures - 如何保留输出数组/数据帧的列名/标题

TLDR:如何从sklearn.preprocessing.PolynomialFeatures()函数获取输出numpy数组的header？假设我有以下代码...importpandasaspdimportnumpyasnpfromsklearnimportpreprocessingasppa=np.ones(3)b=np.ones(3)*2c=np.ones(3)*3input_df=pd.DataFrame([a,b,c])input_df=input_df.Tinput_df.columns=['a','b','c']input_dfabc012311232123poly=pp

列名 PolynomialFeatures 39 input_df section python python-2.7 validation scikit-learn cross-validation

python - [sklearn][standardscaler] 我可以反转模型输出的 standardscaler 吗？

我有一些数据结构如下，试图根据特征预测t。train_dft:timetopredictf1:feature1f2:feature2f3:......t是否可以使用StandardScaler进行缩放，所以我改为预测t'然后反转StandardScaler以返回实时？例如:fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(train_df['t'])train_df['t']=scaler.transform(train_df['t'])运行回归模型，检查分数，!!用实时值检查预

standardscaler 反转 code section python scikit-learn scale

8 9 101112 13 14