STATISTICS_草庐IT

python - 如何更好地拟合seaborn fiddle 情节？

以下代码为我提供了一个非常漂亮的fiddle图(以及其中的箱线图)。importnumpyasnpimportseabornassnsimportmatplotlib.pyplotaspltfoo=np.random.rand(100)sns.violinplot(foo)plt.boxplot(foo)plt.show()到目前为止一切顺利。但是，当我查看foo时，该变量不包含任何负值。seaborn情节在这里似乎具有误导性。普通的matplotlib箱线图给出的结果更接近我的预期。如何制作更合适的fiddle图(不显示假负值)？最佳答案

情节 seaborn code section violinplot python plot statistics

用于引导置信区间和非参数多数据集比较的 Python 统计包

我正在寻找一个Python包，它可以计算一个/两个自举置信区间并执行非参数多数据集比较。有人知道吗？最佳答案在我实验室伙伴的帮助下，我找到了我需要的所有统计数据包。自举CI:http://scikits.appspot.com/bootstrap方差分析:http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html我希望这对其他遇到我问题的人有所帮助! 关于用于引导置信区间和非参数多数据集比

数多置信 section scipy python statistics statistics-bootstrap

【附证明】用ArcGIS中Band Collection Statistics做相关性分析可能存在错误

ArcGIS相关性分析SpatialAnalystTools——Multivariate（多元分析）——BandCollectionStatistics（波段集统计）。添加图层，勾选Computecovarianceandcorrelationmatrices以输出相关第分析结果，结果保存成txt。使用的是皮尔逊相关系数（PearsonCorrelationCoefficient）。SpatialAnalystTools——Multivariate——BandCollectionStatistics添加图层，勾选Computecovarianceandcorrelationmatrices以输

Collection Statistics span class token arcgis python 人工智能

python - 在 scipy.stats 中，rv_continuous 有一个 fit 方法来查找 MLE，但 rv_discrete 没有。为什么？

我想为一些可能受离散分布支配的数据找到最大似然估计。但是在scipy.stats中，只有代表连续分布的类才有合适的函数来做到这一点。代表离散分布的类不代表的原因是什么？最佳答案简短的回答:因为据我所知，没有人为它编写代码，甚至没有人尝试过。更长的答案:我不知道使用通用最大似然法的离散模型可以走多远，就像连续分布一样，它适用于许多但不是所有这些。大多数离散分布对参数都有严格的限制，并且很可能大多数都需要特定于分布的拟合方法>>>[(f,getattr(stats,f).shapes)forfindir(stats)ifisinst

rv_continuous rv_discrete 39 section 数来 python statistics scipy

python - python 中分布的正态性检验

我有一些从雷达卫星图像中采样的数据，想对其进行一些统计测试。在此之前，我想进行正态性测试，以确保我的数据呈正态分布。我的数据似乎是正态分布的，但当我执行测试时，我得到的P值为0，这表明我的数据不是正态分布的。我附上了我的代码以及输出和分布的直方图(我对Python比较陌生，如果我的代码在任何方面都很笨拙，我深表歉意)。如果我做错了什么，谁能告诉我-我发现很难从我的直方图中相信我的数据不是正态分布的？values='inputfile.h5'f=h5py.File(values,'r')dset=f['/DATA/DATA']array=dset[...,0]print('normali

中分 python section array code statistics scipy normal-distribution

python - `python` 中的加权高斯核密度估计

更新:scipy.stats.gaussian_kde现在支持加权样本。参见here和here了解详情。目前无法使用scipy.stats.gaussian_kde根据weightedsamples估计随机变量的密度.基于加权样本估计连续随机变量密度的方法有哪些？最佳答案都不是sklearn.neighbors.KernelDensity也不statsmodels.nonparametric似乎支持加权样本。我修改了scipy.stats.gaussian_kde以允许异构采样权重，并认为结果可能对其他人有用。示例如下所示。ip

python 中的 code noreferrer noopener statistics scipy kernel-density

python - Python 中的评分者间协议(protocol)(Cohen 的 Kappa)

我有3位评分者对60个案例的评分。这些是按文档组织的列表-第一个元素是指第一个文档的评级，第二个是第二个文档的评级，依此类推:rater1=[-8,-7,8,6,2,-5,...]rater2=[-3,-5,3,3,2,-2,...]rater3=[-4,-2,1,0,0,-2,...]某处是否有Cohen的Kappa的python实现？我在numpy或scipy中找不到任何东西，在stackoverflow上也找不到任何东西，但也许我错过了？这是一个很常见的统计数据，所以我很惊讶我找不到像Python这样的语言。最佳答案 Coh

protocol python section kappa cohen_kappa_score statistics rating

python - 决定折叠这棵树的截止点的算法？

我有一个Newick通过比较4-9bp长DNA序列的假定DNA调节基序的位置权重矩阵(PWM或PSSM)的相似性(欧氏距离)构建的树。树的交互式版本在iTol(here)上，您可以自由使用它-只需在设置参数后按“更新树”:我的具体目标:如果它们到最近的父进化枝的平均距离小于X(ETE2Pythonpackage)，则将图案(尖端/终端节点/叶子)折叠在一起。这在生物学上很有趣，因为一些基因调节DNA基序可能彼此同源(旁系同源物或直系同源物)。这种折叠可以通过上面链接的iTolGUI完成，例如如果您选择X=0.001，那么一些图案会折叠成三角形(图案系列)。我的问题:有人可以建议一种算法

python 的 strong section statistics cluster-analysis bioinformatics

python - SciPy 中的拟合优度检验

我是Python的新手，来自R世界。我正在尝试使用SciPy使分布适合样本数据并取得了良好的成功。我可以让distribution.fit(data)返回合理的结果。我一直无法做的是创建拟合优度统计数据，我习惯于使用R中的fitdistrplus包。是否有一种通用方法可以比较多个“最佳拟合”SciPy的不同发行版？我正在寻找类似Kolmogorov-Smirnov检验或Cramer-vonMises或安德森宠儿检验最佳答案查看scipy.stats库:http://docs.scipy.org/doc/scipy/referen

python SciPy section code statistics

python - SciPy 中的拟合优度检验

我是Python的新手，来自R世界。我正在尝试使用SciPy使分布适合样本数据并取得了良好的成功。我可以让distribution.fit(data)返回合理的结果。我一直无法做的是创建拟合优度统计数据，我习惯于使用R中的fitdistrplus包。是否有一种通用方法可以比较多个“最佳拟合”SciPy的不同发行版？我正在寻找类似Kolmogorov-Smirnov检验或Cramer-vonMises或安德森宠儿检验最佳答案查看scipy.stats库:http://docs.scipy.org/doc/scipy/referen

python SciPy section code statistics