learning_topic

python - 在 scikit-learn SVM 中缩放数据

虽然libsvm提供了用于缩放数据的工具，但使用Scikit-Learn(对于SVC分类器应该基于libSVM)我找不到缩放数据的方法。基本上我想使用4个特征，其中3个从0到1，最后一个是一个“大”高度可变的数字。如果我在libSVM中包含第四个功能(使用自动缩放我的数据的easy.py脚本)，我会得到一些非常好的结果(96%的准确率)。如果我在Scikit-Learn中包含第四个变量，准确度会下降到~78%-但如果我排除它，我得到的结果与在排除该特征时在libSVM中得到的结果相同。因此，我很确定这是缺少缩放的问题。如何以编程方式(即不调用svm-scale)复制SVM的缩放过程？

scikit-learn python section 中包 preprocessing svm libsvm

machine-learning - sp_randint 是如何工作的？

我正在对随机森林分类器进行超参数优化。我打算使用RandomSearchCV。因此，通过检查Scikit中的可用代码，可以了解:sp_randint的作用是什么？它是否随机取一个从1到11的值？可以用其他功能代替吗？fromscipy.statsimportrandintassp_randintparam_dist={"n_estimators":sp_randint(1,11),"max_depth":[3,None],"max_features":sp_randint(1,11),"min_samples_split":sp_randint(1,11),"min_samples_l

machine-learning sp_randint code randint python optimization scikit-learn scipy

python - 如何将带有 keras 回归器的 scikit-learn 管道保存到磁盘？

我有一个带有kerasRegressor的scikit-learn管道:estimators=[('standardize',StandardScaler()),('mlp',KerasRegressor(build_fn=baseline_model,nb_epoch=5,batch_size=1000,verbose=1))]pipeline=Pipeline(estimators)训练管道后，我尝试使用joblib保存到磁盘...joblib.dump(pipeline,filename,compress=9)但是我得到一个错误:RuntimeError:maximumrecur

scikit-learn python pipeline model section machine-learning keras joblib

python - scikit-learn, linearsvc - 如何从经过训练的 SVM 中获取支持向量？

我正在使用scikit-learn库中的LinearSVC，我想知道是否有可能以某种方式提取我的模型在训练后使用的向量来进行预测。试图谷歌一段时间但没有任何运气。有人知道吗？最佳答案不幸的是，似乎没有办法做到这一点。LinearSVC调用liblinear(seerelevantcode)但不检索向量，仅检索系数和截距。一种替代方法是将SVC与“线性”内核(libsvm而不是基于liblinear的内核)一起使用，还有poly、dbf和sigmoid内核支持这个选项:fromsklearnimportsvmX=[[0,0],[1

scikit-learn linearsvc section code python machine-learning

python - 使用 Scikit Learn 对时间序列 pandas 数据框进行线性回归

我正在尝试使用scikit学习线性回归器对Pandas数据框进行简单的线性回归。我的数据是一个时间序列，pandas数据框有一个日期时间索引:value2007-01-010.7713052007-02-010.2566282008-01-010.6709202008-02-010.098047做一些简单的事fromsklearnimportlinear_modellr=linear_model.LinearRegression()lr(data.index,data['value'])没用:float()argumentmustbeastringoranumber所以我尝试创建一个包

python Scikit code section pre pandas

python - 将 statsmodel 估计与 scikit-learn 交叉验证结合使用是否可能？

我将这个问题发布到CrossValidated论坛，后来意识到这可能会在stackoverlfow中找到合适的受众。我正在寻找一种方法，可以使用从pythonstatsmodel获得的fit对象(结果)输入到scikit-learncross_validation方法的cross_val_score中？所附链接表明这可能是可能的，但我没有成功。我收到以下错误estimatorshouldabeanestimatorimplementing'fit'methodstatsmodels.discrete.discrete_model.BinaryResultsWrapperobjectat

scikit-learn statsmodel code self section python cross-validation statsmodels

python - 多处理 scikit-learn

我使用load_file方法让linearsvc针对训练集和测试集工作，我试图让它在多处理器环境中工作。如何在LinearSVC().fit()LinearSVC().predict()上进行多处理工作？我还不太熟悉scikit-learn的数据类型。我也在考虑将样本拆分为多个数组，但我不熟悉numpy数组和scikit-learn数据结构。这样做会更容易放入multiprocessing.pool()中，这样，将样本分成block，训练它们并稍后组合训练集，它会工作吗？编辑:这是我的场景:假设，我们在训练样本集中有100万个文件，当我们想要在多个处理器上分发Tfidfvectoriz

scikit-learn python section code multithreading numpy machine-learning

python - 在 scikit-learn 中获得多标签预测的准确性

在multilabelclassification中设置，sklearn.metrics.accuracy_score仅计算子集准确性(3):即为样本预测的标签集必须与y_true中相应的标签集完全匹配。这种计算准确度的方法有时被命名为精确匹配率(1):在scikit-learn中有没有其他典型的方法来计算准确度，即(如(1)和(2)中所定义，更明确地称为Hamming分数(4)(因为它与Hamming损失密切相关)，或基于标签准确度)？(1)Sorower,MohammadS."Aliteraturesurveyonalgorithmsformulti-labellearning."

scikit-learn python noreferrer true noopener classification

python - 将 scikit-learn NMF 与一组预先计算的基向量 (Python) 结合使用

我想使用scikit-learnNMF(来自here)(或者任何其他NMF，如果它能胜任的话)。具体来说，我有一个输入矩阵(这是一个音频幅度谱图)，我想分解它。我已经预先计算了W矩阵。我如何在sklearn.decompose.NMF中使用一个fixedW？我还没有发现任何其他问题。我看到了this方法还在fit参数中提到了类似的内容:“如果为False，则假定组件已预先计算并存储在transformer中，并且不会更改。”。但是，我不确定如何制作该转换器对象。最佳答案 Thispartofthecode稍微解释了内部处理。听起来

预先 scikit-learn code section python nmf

Python scikit-learn : Cannot clone object. .. 因为构造函数似乎没有设置参数

我修改了BernoulliRBMscikit类学习使用softmax可见单元组。在此过程中，我添加了一个额外的Numpy数组visible_config作为类属性，它在构造函数中初始化如下:self.visible_config=np.cumsum(np.concatenate((np.asarray([0]),visible_config),axis=0))其中visible_config是作为输入传递给构造函数的Numpy数组。当我直接使用fit()函数训练模型时，代码运行没有错误。但是，当我使用GridSearchCV结构时，出现以下错误CannotcloneobjectSoft

scikit-learn Python code visible_config section numpy copy

37 38 394041 42 43