草庐IT

森林树木

全部标签

python - 导出 Scikit Learn 随机森林以在 Hadoop 平台上使用

我已经使用pandas和scikitlearn开发了一个垃圾邮件分类器,可以将其集成到我们基于hadoop的系统中。为此,我需要将我的分类器导出为比酸洗更常见的格式。预测模型标记语言(PMML)是我首选的导出格式。它与我们已经使用的Cascading配合使用非常好。然而,令人惊讶的是,我找不到任何将scikit-learn模型导出到PMML的python库。有没有人有过这个用例的经验?是否有任何形式的PMML替代方案可以在scikit-learn和hadoop之间提供互操作性?可靠的PMML导出库怎么样? 最佳答案 你可以使用Py2

python - 随机森林的 "verbosity"参数是什么意思? (sklearn)

在sklearn中构建随机森林的kwargs之一是"verbose".文档说它Controlstheverbosityofthetreebuildingprocess网上查了下还是不太明白这是什么意思。 最佳答案 关键字参数的冗长通常意味着为任务显示更多“冗长”的信息。在这种情况下,对于机器学习,通过将verbose设置为更高的数字(2vs1),您可能会看到有关树构建过程的更多信息。查看anothermachinelearningapplication的详细设置可能有助于理解原理。 关于

python - 随机森林回归中的样本大小

如果理解正确,在计算随机森林估计量时通常会应用自举,这意味着树(i)仅使用来自样本(i)的数据构建,并通过替换选择。我想知道sklearnRandomForestRegressor的样本大小是多少用途。我唯一看到的是接近:bootstrap:boolean,optional(default=True)Whetherbootstrapsamplesareusedwhenbuildingtrees.但是没有办法指定样本量的大小或比例,也没有告诉我默认样本量。我觉得至少应该有办法知道默认样本大小是多少,我错过了什么? 最佳答案 呃,我同意

python - 将列名称映射到随机森林特征重要性

我正在尝试绘制随机森林模型的特征重要性并将每个特征重要性映射回原始系数。我设法创建了一个显示重要性的图,并使用原始变量名称作为标签,但现在它按照变量名称在数据集中的顺序(而不是按重要性顺序)对变量名称进行排序。我如何按照功能重要性对它们进行排序?谢谢!我的代码是:importances=brf.feature_importances_std=np.std([tree.feature_importances_fortreeinbrf.estimators_],axis=0)indices=np.argsort(importances)[::-1]#Printthefeatureranki

python - scikit - 随机森林回归 - AttributeError : 'Thread' object has no attribute '_children'

在为随机森林回归器设置n_jobs参数>1时出现以下错误。如果我设置n_jobs=1,一切正常。AttributeError:'Thread'objecthasnoattribute'_children'我在flask服务中运行这段代码。有趣的是,在flask服务之外运行时不会发生这种情况。我只在新安装的Ubuntu机器上重现了这个。在我的Mac上它工作得很好。这是一个讨论这个问题的线程,但似乎没有解决任何问题:'Thread'objecthasnoattribute'_children'-django+scikit-learn对此有什么想法吗?这是我的测试代码:@test.route

python - scikit-learn python 中带 Bootstrap 的随机森林 = False

如果我们选择bootstrap=False,RandomForestClassifier()会做什么?根据这个链接中的定义http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifierbootstrap:boolean,optional(default=True)Whetherbootstrapsamplesareusedwhenbuildingtrees.问这个是因为我想对时间序列使

python - scikit随机森林sample_weights的使用

我一直在尝试弄清楚scikit的随机森林sample_weight的用途,但我无法解释我看到的一些结果。从根本上说,我需要它来平衡分类问题与不平衡类。特别是,如果我使用全1的sample_weights数组,我会得到与wsample_weights=None相同的结果。此外,我正在考虑任何权重相等的数组(即全1、全10或全0.8……)都会提供相同的结果。在这种情况下,也许我对权重的直觉是错误的。代码如下:importnumpyasnpfromsklearnimportensemble,metrics,cross_validation,datasets#createasyntheticd

python - 拯救随机森林

我想保存并加载一个合适的随机森林分类器,但出现错误。forest=RandomForestClassifier(n_estimators=100,max_features=mf_val)forest=forest.fit(L1[0:100],L2[0:100])joblib.dump(forest,'screening_forest/screening_forest.pkl')forest2=joblib.load('screening_forest/screening_forest.pkl')错误是:File"C:\Users\mkolarek\Documents\other\Tra

Python实现Stacking回归模型(随机森林回归、极端随机树回归、AdaBoost回归、GBDT回归、决策树回归)项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景Stacking通常考虑的是异质弱学习器(不同的学习算法被组合在一起),stacking学习用元模型组合基础模型。stacking的概念是学习几个不同的弱学习器,并通过训练一个元模型来组合它们,然后基于这些弱模型返回的多个预测结果输出最终的预测结果。本项目应用Stacking回归算法通过集成随机森林回归、极端随机森林回归、Adaboost回归、梯度提升树回归、决策树回归五个算法进行建模、预测及模型评估。2.数据获取本次建模数据来源于网络(本项目撰写人整理而成),数

python - 如何用树木的森林来标记特征的重要性?

我使用sklearn绘制森林的特征重要性。数据框被命名为“心脏”。这里是提取排序特征列表的代码:importances=extc.feature_importances_indices=np.argsort(importances)[::-1]print("Featureranking:")forfinrange(heart_train.shape[1]):print("%d.feature%d(%f)"%(f+1,indices[f],importances[indices[f]]))然后我以这种方式绘制列表:f,ax=plt.subplots(figsize=(11,9))plt.