草庐IT

SciKit-Learn

全部标签

python - scikit-learn, linearsvc - 如何从经过训练的 SVM 中获取支持向量?

我正在使用scikit-learn库中的LinearSVC,我想知道是否有可能以某种方式提取我的模型在训练后使用的向量来进行预测。试图谷歌一段时间但没有任何运气。有人知道吗? 最佳答案 不幸的是,似乎没有办法做到这一点。LinearSVC调用liblinear(seerelevantcode)但不检索向量,仅检索系数和截距。一种替代方法是将SVC与“线性”内核(libsvm而不是基于liblinear的内核)一起使用,还有poly、dbf和sigmoid内核支持这个选项:fromsklearnimportsvmX=[[0,0],[1

python - 将 model.predict() 的结果与原始 pandas DataFrame 合并?

我正在尝试将predict方法的结果与pandas.DataFrame对象中的原始数据合并。fromsklearn.datasetsimportload_irisfromsklearn.cross_validationimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifierimportpandasaspdimportnumpyasnpdata=load_iris()#bearwithmeforthenextfewsteps...I'mtryingtowalkyouthrough#howmydataobjectl

python - 使用 Scikit Learn 对时间序列 pandas 数据框进行线性回归

我正在尝试使用scikit学习线性回归器对Pandas数据框进行简单的线性回归。我的数据是一个时间序列,pandas数据框有一个日期时间索引:value2007-01-010.7713052007-02-010.2566282008-01-010.6709202008-02-010.098047做一些简单的事fromsklearnimportlinear_modellr=linear_model.LinearRegression()lr(data.index,data['value'])没用:float()argumentmustbeastringoranumber所以我尝试创建一个包

python - 使用 joblib 的 sklearn 转储模型,转储多个文件。哪个是正确的模型?

我做了一个示例程序来使用sklearn训练SVM。这是代码fromsklearnimportsvmfromsklearnimportdatasetsfromsklearn.externalsimportjoblibclf=svm.SVC()iris=datasets.load_iris()X,y=iris.data,iris.targetclf.fit(X,y)print(clf.predict(X))joblib.dump(clf,'clf.pkl')当我转储模型文件时,我得到了这个数量的文件。:['clf.pkl'、'clf.pkl_01.npy'、'clf.pkl_02.npy'

python - Sklearn 线性回归 - "IndexError: tuple index out of range"

我有一个“.dat”文件,其中保存了X和Y的值(所以一个元组(n,2),其中n是行数)。importnumpyasnpimportmatplotlib.pyplotaspltimportscipy.interpolateasinterpfromsklearnimportlinear_modelin_file=open(path,"r")text=np.loadtxt(in_file)in_file.close()x=np.array(text[:,0])y=np.array(text[:,1])我为linear_model.LinearRegression()创建了一个实例,但是当我调

python - Sklearn TFIDF 矢量器作为并行作业运行

如何运行sklearnTFIDF向量化器(和COUNT向量化器)以作为并行作业运行?类似于其他sklearn模型中的n_jobs=-1参数。 最佳答案 这不是直接可行的,因为没有办法并行化/分配对这些向量化器所需的词汇表的访问。要执行并行文档矢量化,请使用HashingVectorizer反而。scikit文档提供anexample使用此矢量化器批量训练(和评估)分类器。类似的工作流程也适用于并行化,因为输入项​​被映射到相同的向量索引,而并行工作人员之间没有任何通信。只需分别计算部分术语文档矩阵,并在所有作业完成后将它们连接起来。

python - scikit 学习的特殊性

我的分类需要特异性,定义为:TN/(TN+FP)我正在编写一个自定义记分器函数:fromsklearn.metricsimportmake_scorerdefspecificity_loss_func(ground_truth,predictions):printpredictionstp,tn,fn,fp=0.0,0.0,0.0,0.0forl,minenumerate(ground_truth):ifm==predictions[l]andm==1:tp+=1ifm==predictions[l]andm==0:tn+=1ifm!=predictions[l]andm==1:fn+

python - 如何使用 GridSearchCV 输出进行 scikit 预测?

在下面的代码中:#Loaddatasetiris=datasets.load_iris()X,y=iris.data,iris.targetrf_feature_imp=RandomForestClassifier(100)feat_selection=SelectFromModel(rf_feature_imp,threshold=0.5)clf=RandomForestClassifier(5000)model=Pipeline([('fs',feat_selection),('clf',clf),])params={'fs__threshold':[0.5,0.3,0.7],'f

python - 将 statsmodel 估计与 scikit-learn 交叉验证结合使用是否可能?

我将这个问题发布到CrossValidated论坛,后来意识到这可能会在stackoverlfow中找到合适的受众。我正在寻找一种方法,可以使用从pythonstatsmodel获得的fit对象(结果)输入到scikit-learncross_validation方法的cross_val_score中?所附链接表明这可能是可能的,但我没有成功。我收到以下错误estimatorshouldabeanestimatorimplementing'fit'methodstatsmodels.discrete.discrete_model.BinaryResultsWrapperobjectat

python - 如何忽略 numpy 数组中的 NaN 数据点并在 Python 中生成规范化数据?

假设我有一个带有一些float('nan')的numpy数组,我现在不想估算这些数据,我想首先对这些数据进行归一化并将NaN数据保留在原始空间,有什么办法吗我能做到吗?之前我在sklearn.Preprocessing中使用了normalize函数,但该函数似乎不能将任何包含NaN的数组作为输入。 最佳答案 您可以使用numpy.ma.array函数屏蔽您的数组,然后应用任何numpy操作:importnumpyasnpa=np.random.rand(10)#Generaterandomdata.a=np.where(a>0.8,