草庐IT

python - scikit-learn 管道中具有递归特征消除的网格搜索返回错误

我正在尝试使用scikit-learn在管道中链接网格搜索和递归特征消除。带有“裸”分类器的GridSearchCV和RFE工作正常:fromsklearn.datasetsimportmake_friedman1fromsklearnimportfeature_selectionfromsklearn.grid_searchimportGridSearchCVfromsklearn.svmimportSVRX,y=make_friedman1(n_samples=50,n_features=10,random_state=0)est=SVR(kernel="linear")selec

python - 如何处理 sklearn GradientBoostingClassifier 中的分类变量?

我正在尝试使用GradientBoostingClassifier训练模型使用分类变量。以下是原始代码示例,仅用于尝试将分类变量输入到GradientBoostingClassifier中。fromsklearnimportdatasetsfromsklearn.ensembleimportGradientBoostingClassifierimportpandasiris=datasets.load_iris()#Useonlydatafor2classes.X=iris.data[(iris.target==0)|(iris.target==1)]Y=iris.target[(ir

python - Sklearn.KMeans() : Get class centroid labels and reference to a dataset

Sci-Kit学习Kmeans和PCA降维我有一个200万行x7列的数据集,其中包含不同的家庭用电量测量值以及每个测量值的日期。日期,Global_active_power,Global_reactive_power,电压,全局强度,Sub_metering_1,Sub_metering_2,Sub_metering_3我将我的数据集放入pandas数据框中,选择除日期列之外的所有列,然后执行交叉验证拆分。importpandasaspdfromsklearn.cross_validationimporttrain_test_splitdata=pd.read_csv('househo

python - sklearn 逻辑回归 - 重要特征

我很确定以前有人问过这个问题,但我找不到答案在python上使用sklearn运行逻辑回归,我能够转换使用Transform方法将我的数据集转换为最重要的特征classf=linear_model.LogisticRegression()func=classf.fit(Xtrain,ytrain)reduced_train=func.transform(Xtrain)我如何判断哪些功能被选为最重要的?更一般地说,如何计算数据集中每个特征的p值? 最佳答案 正如上面评论中所建议的,您可以(并且应该)在拟合之前缩放数据,从而使系数具有可

python - 使用 joblib 的 sklearn 转储模型,转储多个文件。哪个是正确的模型?

我做了一个示例程序来使用sklearn训练SVM。这是代码fromsklearnimportsvmfromsklearnimportdatasetsfromsklearn.externalsimportjoblibclf=svm.SVC()iris=datasets.load_iris()X,y=iris.data,iris.targetclf.fit(X,y)print(clf.predict(X))joblib.dump(clf,'clf.pkl')当我转储模型文件时,我得到了这个数量的文件。:['clf.pkl'、'clf.pkl_01.npy'、'clf.pkl_02.npy'

python - Sklearn 线性回归 - "IndexError: tuple index out of range"

我有一个“.dat”文件,其中保存了X和Y的值(所以一个元组(n,2),其中n是行数)。importnumpyasnpimportmatplotlib.pyplotaspltimportscipy.interpolateasinterpfromsklearnimportlinear_modelin_file=open(path,"r")text=np.loadtxt(in_file)in_file.close()x=np.array(text[:,0])y=np.array(text[:,1])我为linear_model.LinearRegression()创建了一个实例,但是当我调

python - Sklearn TFIDF 矢量器作为并行作业运行

如何运行sklearnTFIDF向量化器(和COUNT向量化器)以作为并行作业运行?类似于其他sklearn模型中的n_jobs=-1参数。 最佳答案 这不是直接可行的,因为没有办法并行化/分配对这些向量化器所需的词汇表的访问。要执行并行文档矢量化,请使用HashingVectorizer反而。scikit文档提供anexample使用此矢量化器批量训练(和评估)分类器。类似的工作流程也适用于并行化,因为输入项​​被映射到相同的向量索引,而并行工作人员之间没有任何通信。只需分别计算部分术语文档矩阵,并在所有作业完成后将它们连接起来。

python - 使用部分拟合的 sklearn 投票合奏

有人可以告诉我如何使用部分拟合在sklearn中使用集成。我不想重新训练我的模型。或者,我们可以通过预训练模型进行集成吗?例如,我已经看到投票分类器不支持使用部分拟合进行训练。 最佳答案 Mlxtend库有一个VotingEnsemble的实现,它允许您传入预拟合模型。例如,如果您有三个预训练模型clf1、clf2、clf3。以下代码将起作用。frommlxtend.classifierimportEnsembleVoteClassifierimportcopyeclf=EnsembleVoteClassifier(clfs=[cl

python - Sklearn 预处理 - PolynomialFeatures - 如何保留输出数组/数据帧的列名/标题

TLDR:如何从sklearn.preprocessing.PolynomialFeatures()函数获取输出numpy数组的header?假设我有以下代码...importpandasaspdimportnumpyasnpfromsklearnimportpreprocessingasppa=np.ones(3)b=np.ones(3)*2c=np.ones(3)*3input_df=pd.DataFrame([a,b,c])input_df=input_df.Tinput_df.columns=['a','b','c']input_dfabc012311232123poly=pp

python - [sklearn][standardscaler] 我可以反转模型输出的 standardscaler 吗?

我有一些数据结构如下,试图根据特征预测t。train_dft:timetopredictf1:feature1f2:feature2f3:......t是否可以使用StandardScaler进行缩放,所以我改为预测t'然后反转StandardScaler以返回实时?例如:fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(train_df['t'])train_df['t']=scaler.transform(train_df['t'])运行回归模型,检查分数,!!用实时值检查预