草庐IT

$sklearn

全部标签

python - 随机森林的 "verbosity"参数是什么意思? (sklearn)

在sklearn中构建随机森林的kwargs之一是"verbose".文档说它Controlstheverbosityofthetreebuildingprocess网上查了下还是不太明白这是什么意思。 最佳答案 关键字参数的冗长通常意味着为任务显示更多“冗长”的信息。在这种情况下,对于机器学习,通过将verbose设置为更高的数字(2vs1),您可能会看到有关树构建过程的更多信息。查看anothermachinelearningapplication的详细设置可能有助于理解原理。 关于

python - 如何一致地缩放数据帧 MinMaxScaler() sklearn

我有三个数据框,每个数据框都使用MinMaxScaler()单独缩放。defscale_dataframe(values_to_be_scaled)values=values_to_be_scaled.astype('float64')scaler=MinMaxScaler(feature_range=(0,1))scaled=scaler.fit_transform(values)returnscaledscaled_values=[]foriinrange(0,num_df):scaled_values.append(scale_dataframe(df[i].values))我遇

python - sklearn : use Pipeline in a RandomizedSearchCV?

我希望能够在sklearn的RandomizedSearchCV构造中使用管道。但是现在我认为只支持估算器。这是我希望能够执行的操作的示例:importnumpyasnpfromsklearn.grid_searchimportRandomizedSearchCVfromsklearn.datasetsimportload_digitsfromsklearn.svmimportSVCfromsklearn.preprocessingimportStandardScalerfromsklearn.pipelineimportPipeline#getsomedatairis=load_di

python - 使用 joblib 在 sklearn 中重用 cross_val_score 拟合的模型

这个问题在这里已经有了答案:Usingsklearncross_val_scoreandkfoldstofitandhelppredictmodel(1个回答)关闭11个月前。社区在11个月前审查了是否重新打开这个问题,然后将其关闭:原始关闭原因未解决我在python中创建了以下函数:defcross_validate(algorithms,data,labels,cv=4,n_jobs=-1):print"Crossvalidationusing:"foralg,predictorsinalgorithms:printalgprint#Computetheaccuracyscoref

python - sklearn kfold 在 python 中返回错误的索引

我在具有非连续行索引的df(数据框)上使用python中sklearn包中的kfold函数。这是代码:kFold=KFold(n_splits=10,shuffle=True,random_state=None)fortrain_index,test_indexinkFold.split(dfNARemove):...我得到一些在我的df中不存在的train_index或test_index。我能做什么? 最佳答案 kFold迭代器为您生成DataFrame的训练和验证对象的位置索引,而不是它们的非连续索引。您可以使用.ilocpa

python - 无法理解 sklearn 的 PolynomialFeatures

在sklearn的多项式特征方面需要帮助。它适用于一个功能,但每当我添加多个功能时,它还会在数组中输出一些值,除了提升到度数的值之外。例如:对于这个数组,X=np.array([[230.1,37.8,69.2]])当我尝试X_poly=poly.fit_transform(X)输出[[1.00000000e+002.30100000e+023.78000000e+016.92000000e+015.29460100e+048.69778000e+031.59229200e+041.42884000e+032.61576000e+034.78864000e+03]]在这里,8.6977

python - 为什么sklearn RandomForest模型保存后占用大量磁盘空间?

我正在使用下面的代码从sklearn库中保存RandomForestClassifier模型withopen('/tmp/rf.model','wb')asf:cPickle.dump(RF_model,f)它占用了我硬盘上的大量空间。模型中只有50棵树,但它占用了超过50MB的磁盘空间(分析的数据集约为20MB,具有21个特征)。有人知道为什么吗?我观察到ExtraTreesClassifier的类似行为。编辑:射频参数:"n_estimators":50,"max_features":0.2,"min_samples_split":20,"criterion":"gini","mi

python - sklearn randomizedSearchCV 中的参数列表,如 GridSearchCV?

我遇到了一个问题,我想测试多个模型,这些模型并不都具有相同的命名参数。您将如何在RandomizedSearchCV中为管道使用参数列表,就像您可以在本示例中使用GridSearchCV一样?示例来自:https://scikit-learn.org/stable/auto_examples/compose/plot_compare_reduction.htmlimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_digitsfromsklearn.model_selectionimportG

python - 如何在tensorflow中实现sklearn的PolynomialFeatures?

我正在尝试实现scikit-learn的PolynomialFeatures作为TensorFlow和Keras中前馈神经网络的一层。为了简单起见,我将给出一个使用NumPy数组的示例。如果一个batch有3个样本,某一层的activations等于(3,2)形矩阵>>>X=np.arange(0,6).reshape(2,3)>>>Xarray([[0,1],[2,3],[4,5]])然后我希望下一层的激活等于X的2次多项式特征展开:>>>fromsklearn.preprocessingimportPolynomialFeatures>>>PolynomialFeatures(de

python - 将 easy_install 与 sklearn-pandas 一起使用

我正在尝试安装sklearn-pandas。我的尝试:easy_installsklearn-pandas我得到结果:ThepackagesetupscripthasattemptedtomodifyfilesonyoursystemthatarenotwithintheEasyInstallbuildarea,andhasbeenaborted.ThispackagecannotbesafelyinstalledbyEasyInstall,andmaynotsupportalternateinstallationlocationsevenifyourunitssetupscriptb