$sklearn

python - sklearn 逻辑回归 - 重要特征

我很确定以前有人问过这个问题，但我找不到答案在python上使用sklearn运行逻辑回归，我能够转换使用Transform方法将我的数据集转换为最重要的特征classf=linear_model.LogisticRegression()func=classf.fit(Xtrain,ytrain)reduced_train=func.transform(Xtrain)我如何判断哪些功能被选为最重要的？更一般地说，如何计算数据集中每个特征的p值？最佳答案正如上面评论中所建议的，您可以(并且应该)在拟合之前缩放数据，从而使系数具有可

python - 使用 joblib 的 sklearn 转储模型，转储多个文件。哪个是正确的模型？

我做了一个示例程序来使用sklearn训练SVM。这是代码fromsklearnimportsvmfromsklearnimportdatasetsfromsklearn.externalsimportjoblibclf=svm.SVC()iris=datasets.load_iris()X,y=iris.data,iris.targetclf.fit(X,y)print(clf.predict(X))joblib.dump(clf,'clf.pkl')当我转储模型文件时，我得到了这个数量的文件。:['clf.pkl'、'clf.pkl_01.npy'、'clf.pkl_02.npy'

sklearn python vector joblib pkl machine-learning scikit-learn

python - Sklearn 线性回归 - "IndexError: tuple index out of range"

我有一个“.dat”文件，其中保存了X和Y的值(所以一个元组(n,2)，其中n是行数)。importnumpyasnpimportmatplotlib.pyplotaspltimportscipy.interpolateasinterpfromsklearnimportlinear_modelin_file=open(path,"r")text=np.loadtxt(in_file)in_file.close()x=np.array(text[:,0])y=np.array(text[:,1])我为linear_model.LinearRegression()创建了一个实例，但是当我调

IndexError amp code gt linear_model python scikit-learn

python - Sklearn TFIDF 矢量器作为并行作业运行

如何运行sklearnTFIDF向量化器(和COUNT向量化器)以作为并行作业运行？类似于其他sklearn模型中的n_jobs=-1参数。最佳答案这不是直接可行的，因为没有办法并行化/分配对这些向量化器所需的词汇表的访问。要执行并行文档矢量化，请使用HashingVectorizer反而。scikit文档提供anexample使用此矢量化器批量训练(和评估)分类器。类似的工作流程也适用于并行化，因为输入项被映射到相同的向量索引，而并行工作人员之间没有任何通信。只需分别计算部分术语文档矩阵，并在所有作业完成后将它们连接起来。

量器 Sklearn section 词汇表 noreferrer python scikit-learn

python - 使用部分拟合的 sklearn 投票合奏

有人可以告诉我如何使用部分拟合在sklearn中使用集成。我不想重新训练我的模型。或者，我们可以通过预训练模型进行集成吗？例如，我已经看到投票分类器不支持使用部分拟合进行训练。最佳答案 Mlxtend库有一个VotingEnsemble的实现，它允许您传入预拟合模型。例如，如果您有三个预训练模型clf1、clf2、clf3。以下代码将起作用。frommlxtend.classifierimportEnsembleVoteClassifierimportcopyeclf=EnsembleVoteClassifier(clfs=[cl

合奏 sklearn section EnsembleVoteClassifier 训练 python machine-learning scikit-learn ensemble-learning

python - Sklearn 预处理 - PolynomialFeatures - 如何保留输出数组/数据帧的列名/标题

TLDR:如何从sklearn.preprocessing.PolynomialFeatures()函数获取输出numpy数组的header？假设我有以下代码...importpandasaspdimportnumpyasnpfromsklearnimportpreprocessingasppa=np.ones(3)b=np.ones(3)*2c=np.ones(3)*3input_df=pd.DataFrame([a,b,c])input_df=input_df.Tinput_df.columns=['a','b','c']input_dfabc012311232123poly=pp

列名 PolynomialFeatures 39 input_df section python python-2.7 validation scikit-learn cross-validation

python - [sklearn][standardscaler] 我可以反转模型输出的 standardscaler 吗？

我有一些数据结构如下，试图根据特征预测t。train_dft:timetopredictf1:feature1f2:feature2f3:......t是否可以使用StandardScaler进行缩放，所以我改为预测t'然后反转StandardScaler以返回实时？例如:fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(train_df['t'])train_df['t']=scaler.transform(train_df['t'])运行回归模型，检查分数，!!用实时值检查预

standardscaler 反转 code section python scikit-learn scale

python - 如何在sklearn中获得一个非混洗的train_test_split

如果我想要随机训练/测试拆分，我使用sklearn辅助函数:In[1]:fromsklearn.model_selectionimporttrain_test_split...:train_test_split([1,2,3,4,5,6])...:Out[1]:[[1,6,4,2],[5,3]]获得非混洗训练/测试拆分的最简洁方法是什么，即[[1,2,3,4],[5,6]]编辑目前我正在使用train,test=data[:int(len(data)*0.75)],data[int(len(data)*0.75):]但希望有更好的东西。我在sklearn上开了一个问题https://g

train_test_split 何在 test code train python scikit-learn

python - sklearn 上的 PCA - 如何解释 pca.components_

我使用以下简单代码在具有10个特征的数据框上运行PCA:pca=PCA()fit=pca.fit(dfPca)pca.explained_variance_ratio_的结果显示:array([5.01173322e-01,2.98421951e-01,1.00968655e-01,4.28813755e-02,2.46887288e-02,1.40976609e-02,1.24905823e-02,3.43255532e-03,1.84516942e-03,4.50314168e-16])我认为这意味着第一个PC解释了52%的方差，第二个分量解释了29%等等......我不明白的是p

components sklearn strong code python machine-learning math scikit-learn pca

python - sklearn.metrics.mean_squared_error 是不是越大越好(取反)？

一般来说，mean_squared_error越小越好。当我使用sklearn指标包时，它在文档页面中显示:http://scikit-learn.org/stable/modules/model_evaluation.htmlAllscorerobjectsfollowtheconventionthathigherreturnvaluesarebetterthanlowerreturnvalues.Thusmetricswhichmeasurethedistancebetweenthemodelandthedata,likemetrics.mean_squared_error,are

mean_squared_error metrics squared code python scikit-learn mean-square-error

7 8 91011 12 13