草庐IT

e_learning_system

全部标签

python - 使用 scikit-learn 并行生成随机森林

主要问题:如何在python和scikit-learn中组合不同的随机森林?我目前正在使用R中的randomForest包来使用弹性映射减少生成随机森林对象。这是为了解决分类问题。由于我的输入数据太大,一台机器的内存无法容纳,我将数据采样成较小的数据集,并生成包含较小树集的随机森林对象。然后,我使用修改后的组合函数将不同的树组合在一起,以创建一个新的随机森林对象。这个随机森林对象包含特征重要性和最终的树集。这不包括树的oob错误或投票。虽然这在R中运行良好,但我想使用scikit-learn在Python中做同样的事情。我可以创建不同的随机森林对象,但我没有办法将它们组合在一起形成一个

python - 在 scikit learn 中结合网格搜索和交叉验证

为了改进支持向量机结果,我必须使用网格搜索来搜索更好的参数和交叉验证。我不确定如何在scikit-learn中组合它们。网格搜索搜索最佳参数(http://scikit-learn.org/stable/modules/grid_search.html)和交叉验证避免过度拟合(http://scikit-learn.org/dev/modules/cross_validation.html)#GRIDSEARCHfromsklearnimportgrid_searchparameters={'kernel':('linear','rbf'),'C':[1,10]}svr=svm.SVC

python - 如何在 scikit-learn 的管道内对转换参数进行网格搜索

我的目标是使用一个模型选择最重要的变量,并使用另一个模型使用这些变量进行预测。在下面的示例中,我使用了两个RandomForestClassifier,但第二个模型可以是任何其他分类器。RF有一个带有阈值参数的转换方法。我想对不同的可能阈值参数进行网格搜索。这是一个简化的代码片段:#Transformobjectandclassifierrf_filter=RandomForestClassifier(n_estimators=200,n_jobs=-1,random_state=42,oob_score=False)clf=RandomForestClassifier(n_jobs=

python - 无法解决 WindowsError : [Error 2] The system cannot find the file specified

我正在尝试重命名目录中的所有图片。我需要在文件名中添加几个前置零。我是Python的新手,我编写了以下脚本。importospath="c:\\tmp"dirList=os.listdir(path)forfnameindirList:fileName=os.path.splitext(fname)[0]fileName="00"+fnameos.rename(fname,fileName)#print(fileName)注释的打印行只是为了验证我在正确的轨道上。当我运行它时,出现以下错误,我不知道如何解决它。Traceback(mostrecentcalllast):File"C:\

python - 理解python scikit-learn中的文本特征提取TfidfVectorizer

阅读scikit-learn中文本特征提取的文档,我不确定可用于TfidfVectorizer(也可能是其他矢量化器)的不同参数如何影响结果。以下是我不确定它们如何工作的参数:TfidfVectorizer(stop_words='english',ngram_range=(1,2),max_df=0.5,min_df=20,use_idf=True)文档清楚地说明了stop_words/max_df的使用(两者都有类似的效果,可能是一个可以代替另一个)。但是,我不确定这些选项是否应该与ngrams一起使用。哪个先发生/处理,ngrams还是stop_words?为什么?根据我的实验,

python - Pyinstaller - ImportError : No system module 'pywintypes' (pywintypes27. dll)

我正在尝试将我的python脚本打包成可执行文件。我认为我会非常直截了当,因为我没有太多进口商品。首先是我的进口商品:from__future__importprint_functionfromnetCDF4importDatasetimportnumpyasnpimportosfromprogressbarimportPercentage,Bar,ETA,ProgressBar,RotatingMarker我知道numpy受支持我不确定__future__或os我确定netCDF4和progressbar不受支持。我在Windows7的Python2.7.7上使用pyinstalle

python - 为什么 os.path.exists ("C:\\windows\\system32\\inetsrv\\metaback") 即使存在也会返回 False?

我有一个python程序,它应该清理一些目录,其中一个是C:\windows\system32\inetsrv\metaback;但是,os.path.exists()在该目录上返回False,即使它存在(并且我有权访问它)。有趣的是工具windirstat也完全想念它。谁能想到这可能是什么原因以及我可以检查它是否存在的另一种方法是什么?我什至无法在其上运行os.listdir()。更新:os.path.exists()如果Windows机器是32位的,则在这个目录上工作,但如果是64位的,则不会。也可以在32位机器上正确显示在windirstat中。 最佳

python - 原始 xgboost(学习 API)和 sklearn XGBClassifier(Scikit-Learn API)之间的区别

我使用下面的xgbootssklearn界面来创建和训练xgbmodel-1。clf=xgb.XGBClassifier(n_estimators=100,objective='binary:logistic',)clf.fit(x_train,y_train,early_stopping_rounds=10,eval_metric="auc",eval_set=[(x_valid,y_valid)])而xgboost模型可以通过原始xgboost创建如下model-2:param={}param['objective']='binary:logistic'param['eval_me

python - scikit-learn 管道中的 transformer_weights 有什么用?

只是scikit-learn的pipeline的一个小问题。在sklearn.pipeline.FeatureUnion类中,有一个transformer_weights选项。transformer_weights:dict,optional:Multiplicativeweightsforfeaturespertransformer.Keysaretransformernames,valuestheweights.我在一个例子中看到了对不同特征赋予不同权重的用法。transformer_weights={'subject':0.8,'body_bow':0.5,'body_stats

python - 使用 Scikit Learn K-Means 大放异彩

我正在尝试使Blaze数据对象适合scikitkmeans函数。fromblazeimport*fromsklearn.clusterimportKMeansdata_numeric=Data('data.csv')data_cluster=KMeans(n_clusters=5)data_cluster.fit(data_numeric)数据样本:ABC1323455792896721它的抛出错误:我已经能够使用PandasDataframe做到这一点。有什么方法可以将blaze对象提供给此函数? 最佳答案 我认为您需要在适合之前