草庐IT

STATISTICS

全部标签

python - 具有缺失值的分类数据中的降维

我有一个回归模型,其中因变量是连续的,但90%的自变量是分类变量(有序和无序),大约30%的记录有缺失值(更糟糕的是,它们随机缺失任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,它基本上是频率表上主成分分析的变体)。我还要补充一点,数据集的大小适中,有500000个观测值,有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补,然后是降维),是否有很好的统计引用?这与上述问题的实

python - 具有缺失值的分类数据中的降维

我有一个回归模型,其中因变量是连续的,但90%的自变量是分类变量(有序和无序),大约30%的记录有缺失值(更糟糕的是,它们随机缺失任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,它基本上是频率表上主成分分析的变体)。我还要补充一点,数据集的大小适中,有500000个观测值,有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补,然后是降维),是否有很好的统计引用?这与上述问题的实

python - 在 Python 中使用 Holt-Winters 进行预测

我一直在尝试使用thisimplementationoftheHolt-Wintersalgorithm对于Python中的时间序列预测,但遇到了障碍……基本上,对于某些(正)输入序列,它有时会预测负数,显然情况并非如此。即使预测不是负面的,它们有时也会非常不准确——比应有的高/低几个数量级。给算法更多的数据周期似乎没有帮助,实际上往往会使预测变得更糟。我使用的数据有以下特点,可能有问题:非常频繁地采样(每15分钟一个数据点,而不是示例使用的每月数据)-但根据我的阅读,Holt-Winters算法应该没有问题。也许这表明实现存在问题?具有多个周期性-有每日峰值(即每96个数据点)以及周

python - 在 Python 中使用 Holt-Winters 进行预测

我一直在尝试使用thisimplementationoftheHolt-Wintersalgorithm对于Python中的时间序列预测,但遇到了障碍……基本上,对于某些(正)输入序列,它有时会预测负数,显然情况并非如此。即使预测不是负面的,它们有时也会非常不准确——比应有的高/低几个数量级。给算法更多的数据周期似乎没有帮助,实际上往往会使预测变得更糟。我使用的数据有以下特点,可能有问题:非常频繁地采样(每15分钟一个数据点,而不是示例使用的每月数据)-但根据我的阅读,Holt-Winters算法应该没有问题。也许这表明实现存在问题?具有多个周期性-有每日峰值(即每96个数据点)以及周

python - 如何用 numpy 计算统计信息 "t-test"

我希望生成一些关于我在python中创建的模型的统计信息。我想对其进行t检验,但想知道是否有一种简单的方法可以使用numpy/scipy来执行此操作。周围有什么好的解释吗?例如,我有三个相关的数据集,如下所示:[55.0,55.0,47.0,47.0,55.0,55.0,55.0,63.0]现在,我想对它们进行学生t检验。 最佳答案 在scipy.stats中包有几个ttest_...功能。参见here中的示例:>>>print't-statistic=%6.3fpvalue=%6.4f'%stats.ttest_1samp(x,m

python - 如何用 numpy 计算统计信息 "t-test"

我希望生成一些关于我在python中创建的模型的统计信息。我想对其进行t检验,但想知道是否有一种简单的方法可以使用numpy/scipy来执行此操作。周围有什么好的解释吗?例如,我有三个相关的数据集,如下所示:[55.0,55.0,47.0,47.0,55.0,55.0,55.0,63.0]现在,我想对它们进行学生t检验。 最佳答案 在scipy.stats中包有几个ttest_...功能。参见here中的示例:>>>print't-statistic=%6.3fpvalue=%6.4f'%stats.ttest_1samp(x,m

来自 t 统计的 Python p 值

我有一些t值和自由度,想从中找到p值(它是双尾的)。在现实世界中,我会使用统计教科书背面的t检验表;如何在Python中进行等效操作?例如t-lookup(5,7)=0.00245或类似的东西。我知道在SciPy中如果我有数组我可以做scipy.stats.ttest_ind,但我没有。我只有t统计量和自由度。 最佳答案 从http://docs.scipy.org/doc/scipy/reference/tutorial/stats.htmlAsanexercise,wecancalculateourttestalsodirect

来自 t 统计的 Python p 值

我有一些t值和自由度,想从中找到p值(它是双尾的)。在现实世界中,我会使用统计教科书背面的t检验表;如何在Python中进行等效操作?例如t-lookup(5,7)=0.00245或类似的东西。我知道在SciPy中如果我有数组我可以做scipy.stats.ttest_ind,但我没有。我只有t统计量和自由度。 最佳答案 从http://docs.scipy.org/doc/scipy/reference/tutorial/stats.htmlAsanexercise,wecancalculateourttestalsodirect

python - 在 python scipy 中实现 Kolmogorov Smirnov 测试

我有一个关于N个数字的数据集,我想测试它的正态性。我知道scipy.stats有一个kstestfunction但是没有关于如何使用它以及如何解释结果的示例。有哪位熟悉的可以给我一些建议吗?根据文档,使用kstest返回两个数字,KS检验统计量D和p值。如果p值大于显着性水平(例如5%),那么我们不能拒绝数据来自给定分布的假设。当我通过从正态分布中抽取10000个样本并测试高斯性进行测试时:importnumpyasnpfromscipy.statsimportkstestmu,sigma=0.07,0.89kstest(np.random.normal(mu,sigma,10000)

python - 在 python scipy 中实现 Kolmogorov Smirnov 测试

我有一个关于N个数字的数据集,我想测试它的正态性。我知道scipy.stats有一个kstestfunction但是没有关于如何使用它以及如何解释结果的示例。有哪位熟悉的可以给我一些建议吗?根据文档,使用kstest返回两个数字,KS检验统计量D和p值。如果p值大于显着性水平(例如5%),那么我们不能拒绝数据来自给定分布的假设。当我通过从正态分布中抽取10000个样本并测试高斯性进行测试时:importnumpyasnpfromscipy.statsimportkstestmu,sigma=0.07,0.89kstest(np.random.normal(mu,sigma,10000)