草庐IT

statistics

全部标签

python - 从上一个日期 :value data 开始预测

我有一些相似时期的数据集。是当时人的呈现,时间大概一年。数据不是定期收集的,而是相当随机的:每年15-30个条目,来自5个不同的年份。根据每年的数据绘制的图表大致如下:用matplotlib制作的图表。我有datetime.datetime,int格式的数据。是否有可能以任何明智的方式预测future的结果?我最初的想法是计算所有以前出现的平均值并预测它会是这个。不过,这并没有考虑当年的任何数据(如果它一直高于平均水平,猜测可能会略高)。数据集和我的统计知识有限,所以每一个见解都是有帮助的。我的目标是首先创建一个原型(prototype)解决方案,尝试我的数据是否足以满足我正在尝试做的

python - 估计幂律分布中的指数截断

因为我一直在做一些社交网络分析,所以我偶然发现了在网络度上拟合概率分布的问题。因此,我有一个概率分布P(X>=x),从目测来看,它遵循具有指数截断的幂律而不是纯幂律(直线)。因此,假定具有指数截断的幂律分布方程为:f(x)=x**alpha*exp(beta*x)我如何使用Python估计参数alpha和beta?我知道scipy.stats.powerlaw包存在并且它们有一个.fit()函数,但它似乎没有完成这项工作,因为它只返回绘图的位置和比例,哪个似乎只对正态分布有用?这个包的教程也不够。附言我很清楚CLausetetal的实现但它们似乎没有提供估计交替分布参数的方法。

python - 从 Stata 迁移到 Python

一些一直在为Stata11苦苦挣扎的同事正在寻求我的帮助,以尝试将他们费力的工作自动化。他们在Stata中主要使用了3个命令:tsset(setsatimeseriesanalysis)如:tssetyear_column,yearlyvarsoc(Obtainlag-orderselectionstatisticsforVARs)如:varsoccolumn_acolumn_bvec(vectorerror-correctionmodel)如:veccolumn_acolumn_b,trend(con)lags(1)noetable有谁知道我可以通过python使用任何科学库来实现相

python - 在 Python 中分离高斯混合

有一些物理实验的结果,可以表示为直方图[i,amount_of(i)]。我想这个结果可以通过混合使用4-6个高斯函数来估计。Python中有没有一个包,以直方图为输入,返回混合分布中每个高斯分布的均值和方差?原始数据,例如: 最佳答案 这是一个mixtureofgaussians,并且可以使用expectationmaximization进行估算方法(基本上,它在估计它们如何混合在一起的同时找到分布的中心和均值)。这是在PyMix中实现的包裹。下面我生成了一个混合法线的例子,并使用PyMix为它们拟合一个混合模型,包括弄清楚你感兴趣

python - python statsmodels.tsa.seasonal 中的值错误

我有这个带有日期时间索引的数据框:ts_log:dateprice_per_unit2013-04-0412.7623692013-04-0512.7771202013-04-0612.7731462013-04-0712.7807742013-04-0812.786835我有这段代码用于分解fromstatsmodels.tsa.seasonalimportseasonal_decomposedecomposition=seasonal_decompose(ts_log)trend=decomposition.trendseasonal=decomposition.seasonalr

python - 如何更好地拟合seaborn fiddle 情节?

以下代码为我提供了一个非常漂亮的fiddle图(以及其中的箱线图)。importnumpyasnpimportseabornassnsimportmatplotlib.pyplotaspltfoo=np.random.rand(100)sns.violinplot(foo)plt.boxplot(foo)plt.show()到目前为止一切顺利。但是,当我查看foo时,该变量不包含任何负值。seaborn情节在这里似乎具有误导性。普通的matplotlib箱线图给出的结果更接近我的预期。如何制作更合适的fiddle图(不显示假负值)? 最佳答案

用于引导置信区间和非参数多数据集比较的 Python 统计包

我正在寻找一个Python包,它可以计算一个/两个自举置信区间并执行非参数多数据集比较。有人知道吗? 最佳答案 在我实验室伙伴的帮助下,我找到了我需要的所有统计数据包。自举CI:http://scikits.appspot.com/bootstrap方差分析:http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html我希望这对其他遇到我问题的人有所帮助! 关于用于引导置信区间和非参数多数据集比

【附证明】用ArcGIS中Band Collection Statistics做相关性分析可能存在错误

ArcGIS相关性分析SpatialAnalystTools——Multivariate(多元分析)——BandCollectionStatistics(波段集统计)。添加图层,勾选Computecovarianceandcorrelationmatrices以输出相关第分析结果,结果保存成txt。使用的是皮尔逊相关系数(PearsonCorrelationCoefficient)。SpatialAnalystTools——Multivariate——BandCollectionStatistics添加图层,勾选Computecovarianceandcorrelationmatrices以输

python - 在 scipy.stats 中,rv_continuous 有一个 fit 方法来查找 MLE,但 rv_discrete 没有。为什么?

我想为一些可能受离散分布支配的数据找到最大似然估计。但是在scipy.stats中,只有代表连续分布的类才有合适的函数来做到这一点。代表离散分布的类不代表的原因是什么? 最佳答案 简短的回答:因为据我所知,没有人为它编写代码,甚至没有人尝试过。更长的答案:我不知道使用通用最大似然法的离散模型可以走多远,就像连续分布一样,它适用于许多但不是所有这些。大多数离散分布对参数都有严格的限制,并且很可能大多数都需要特定于分布的拟合方法>>>[(f,getattr(stats,f).shapes)forfindir(stats)ifisinst

python - python 中分布的正态性检验

我有一些从雷达卫星图像中采样的数据,想对其进行一些统计测试。在此之前,我想进行正态性测试,以确保我的数据呈正态分布。我的数据似乎是正态分布的,但当我执行测试时,我得到的P值为0,这表明我的数据不是正态分布的。我附上了我的代码以及输出和分布的直方图(我对Python比较陌生,如果我的代码在任何方面都很笨拙,我深表歉意)。如果我做错了什么,谁能告诉我-我发现很难从我的直方图中相信我的数据不是正态分布的?values='inputfile.h5'f=h5py.File(values,'r')dset=f['/DATA/DATA']array=dset[...,0]print('normali