草庐IT

learning_curve

全部标签

Multi-View Learning(多视图学习/多视角学习 )是什么? Co-training(协同训练)和它的关系

一句话解释什么是Multi-ViewLearning:从多个视角进行学习,可以让模型从多方面更好的理解事物,从而提升模型的性能多个视角的来源:(1)多个源(multiplesources):比如人物识别可以用脸、指纹等作为不同源的输入。(2)多个特征子集(differentfeaturesubsets;):比如图像表示可以用颜色、文字等作为不同特征表述。可用于多视角学习算法分为三类:(1)Co-training协同训练(2)MultipleKernelLearning多核学习(3)SubspaceLearning子空间学习。我们先学习一下什么是协同训练,理解了协同训练就差不多可以理解多视图学习

python - 在 HPC 上使用 scikit-learn 函数的并行选项的简单方法

在scikit-learn的许多函数中实现了用户友好的并行化。例如在sklearn.cross_validation.cross_val_score您只需在n_jobs参数中传递所需数量的计算作业。对于具有多核处理器的PC,它会非常好用。但是如果我想在高性能集群中使用这样的选项(安装了OpenMPI包并使用SLURM进行资源管理)?据我所知,sklearn使用joblib进行并行化,它使用multiprocessing。而且,据我所知(据此,例如Pythonmultiprocessingwithinmpi)与multiprocessing并行的Python程序易于使用mpirun实用程

python - 在 HPC 上使用 scikit-learn 函数的并行选项的简单方法

在scikit-learn的许多函数中实现了用户友好的并行化。例如在sklearn.cross_validation.cross_val_score您只需在n_jobs参数中传递所需数量的计算作业。对于具有多核处理器的PC,它会非常好用。但是如果我想在高性能集群中使用这样的选项(安装了OpenMPI包并使用SLURM进行资源管理)?据我所知,sklearn使用joblib进行并行化,它使用multiprocessing。而且,据我所知(据此,例如Pythonmultiprocessingwithinmpi)与multiprocessing并行的Python程序易于使用mpirun实用程

python - 在 Scipy 中,curve_fit 如何以及为什么计算参数估计的协方差

我一直在使用scipy.optimize.leastsq来拟合一些数据。我想获得这些估计值的一些置信区间,因此我查看了cov_x输出,但文档非常不清楚这是什么以及如何从中获取我的参数的协方差矩阵。首先它说它是雅可比行列式,但在notes它还说“cov_x是Hessian的Jacobian近似”,因此它实际上不是Jacobian,而是使用Jacobian的某种近似的Hessian。这些说法中哪一个是正确的?其次,这句话让我很困惑:Thismatrixmustbemultipliedbytheresidualvariancetogetthecovarianceoftheparametere

python - 在 Scipy 中,curve_fit 如何以及为什么计算参数估计的协方差

我一直在使用scipy.optimize.leastsq来拟合一些数据。我想获得这些估计值的一些置信区间,因此我查看了cov_x输出,但文档非常不清楚这是什么以及如何从中获取我的参数的协方差矩阵。首先它说它是雅可比行列式,但在notes它还说“cov_x是Hessian的Jacobian近似”,因此它实际上不是Jacobian,而是使用Jacobian的某种近似的Hessian。这些说法中哪一个是正确的?其次,这句话让我很困惑:Thismatrixmustbemultipliedbytheresidualvariancetogetthecovarianceoftheparametere

python - 我应该使用 `random.seed` 还是 `numpy.random.seed` 来控制 `scikit-learn` 中的随机数生成?

我正在使用scikit-learn和numpy,我想设置全局种子,以便我的工作可重现。我应该使用numpy.random.seed还是random.seed?从评论中的链接,我了解到它们是不同的,并且numpy版本不是线程安全的。我想具体了解使用哪一个来创建IPython笔记本以进行数据分析。scikit-learn的一些算法涉及生成随机数,我想确保notebook在每次运行时显示相同的结果。 最佳答案 ShouldIusenp.random.seedorrandom.seed?这取决于您在代码中使用的是numpy的随机数生成器还是

python - 我应该使用 `random.seed` 还是 `numpy.random.seed` 来控制 `scikit-learn` 中的随机数生成?

我正在使用scikit-learn和numpy,我想设置全局种子,以便我的工作可重现。我应该使用numpy.random.seed还是random.seed?从评论中的链接,我了解到它们是不同的,并且numpy版本不是线程安全的。我想具体了解使用哪一个来创建IPython笔记本以进行数据分析。scikit-learn的一些算法涉及生成随机数,我想确保notebook在每次运行时显示相同的结果。 最佳答案 ShouldIusenp.random.seedorrandom.seed?这取决于您在代码中使用的是numpy的随机数生成器还是

python - 如何在 scikit-learn 中进行预处理后保留数据帧的列标题

我有一个Pandas数据框,其中包含一些行和列。每列都有一个标题。现在只要我继续在pandas中进行数据操作操作,我的变量header就会被保留。但是,如果我尝试使用Sci-kit-learnlib的一些数据预处理功能,我最终会丢失所有标题,并且帧会被转换为数字矩阵。我理解为什么会发生这种情况,因为scikit-learn提供了一个numpyndarray作为输出。并且numpyndarray只是矩阵不会有列名。但事情就是这样。如果我在我的数据集上构建一些模型,即使在初始数据预处理并尝试了一些模型之后,我可能还需要做一些更多的数据操作任务来运行一些其他模型以获得更好的拟合。由于无法访问

python - 如何在 scikit-learn 中进行预处理后保留数据帧的列标题

我有一个Pandas数据框,其中包含一些行和列。每列都有一个标题。现在只要我继续在pandas中进行数据操作操作,我的变量header就会被保留。但是,如果我尝试使用Sci-kit-learnlib的一些数据预处理功能,我最终会丢失所有标题,并且帧会被转换为数字矩阵。我理解为什么会发生这种情况,因为scikit-learn提供了一个numpyndarray作为输出。并且numpyndarray只是矩阵不会有列名。但事情就是这样。如果我在我的数据集上构建一些模型,即使在初始数据预处理并尝试了一些模型之后,我可能还需要做一些更多的数据操作任务来运行一些其他模型以获得更好的拟合。由于无法访问

python - scikit-learn 中的不平衡

我在我的Python程序中使用scikit-learn来执行一些机器学习操作。问题是我的数据集存在严重的不平衡问题。是否有人熟悉scikit-learn或python中不平衡的解决方案?在Java中有SMOTE机制。python中有没有并行的东西? 最佳答案 这里有一个新的https://github.com/scikit-learn-contrib/imbalanced-learn它包含以下类别的许多算法,包括SMOTE对多数类进行欠采样。对少数类进行过采样。结合过采样和欠采样。创建整体平衡集。