STATISTICS_草庐IT

python - 具有缺失值的分类数据中的降维

我有一个回归模型，其中因变量是连续的，但90%的自变量是分类变量(有序和无序)，大约30%的记录有缺失值(更糟糕的是，它们随机缺失任何模式，也就是说，超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范，因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法，但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分，它基本上是频率表上主成分分析的变体)。我还要补充一点，数据集的大小适中，有500000个观测值，有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补，然后是降维)，是否有很好的统计引用？这与上述问题的实

缺失 python noreferrer noopener nofollow r statistics

python - 具有缺失值的分类数据中的降维

我有一个回归模型，其中因变量是连续的，但90%的自变量是分类变量(有序和无序)，大约30%的记录有缺失值(更糟糕的是，它们随机缺失任何模式，也就是说，超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范，因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法，但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分，它基本上是频率表上主成分分析的变体)。我还要补充一点，数据集的大小适中，有500000个观测值，有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补，然后是降维)，是否有很好的统计引用？这与上述问题的实

缺失 python noreferrer noopener nofollow r statistics

python - 在 Python 中使用 Holt-Winters 进行预测

我一直在尝试使用thisimplementationoftheHolt-Wintersalgorithm对于Python中的时间序列预测，但遇到了障碍……基本上，对于某些(正)输入序列，它有时会预测负数，显然情况并非如此。即使预测不是负面的，它们有时也会非常不准确——比应有的高/低几个数量级。给算法更多的数据周期似乎没有帮助，实际上往往会使预测变得更糟。我使用的数据有以下特点，可能有问题:非常频繁地采样(每15分钟一个数据点，而不是示例使用的每月数据)-但根据我的阅读，Holt-Winters算法应该没有问题。也许这表明实现存在问题？具有多个周期性-有每日峰值(即每96个数据点)以及周

Holt-Winters Winters forecast section python statistics forecasting

python - 在 Python 中使用 Holt-Winters 进行预测

我一直在尝试使用thisimplementationoftheHolt-Wintersalgorithm对于Python中的时间序列预测，但遇到了障碍……基本上，对于某些(正)输入序列，它有时会预测负数，显然情况并非如此。即使预测不是负面的，它们有时也会非常不准确——比应有的高/低几个数量级。给算法更多的数据周期似乎没有帮助，实际上往往会使预测变得更糟。我使用的数据有以下特点，可能有问题:非常频繁地采样(每15分钟一个数据点，而不是示例使用的每月数据)-但根据我的阅读，Holt-Winters算法应该没有问题。也许这表明实现存在问题？具有多个周期性-有每日峰值(即每96个数据点)以及周

Holt-Winters Winters forecast section python statistics forecasting

python - 如何用 numpy 计算统计信息 "t-test"

我希望生成一些关于我在python中创建的模型的统计信息。我想对其进行t检验，但想知道是否有一种简单的方法可以使用numpy/scipy来执行此操作。周围有什么好的解释吗？例如，我有三个相关的数据集，如下所示:[55.0,55.0,47.0,47.0,55.0,55.0,55.0,63.0]现在，我想对它们进行学生t检验。最佳答案在scipy.stats中包有几个ttest_...功能。参见here中的示例:>>>print't-statistic=%6.3fpvalue=%6.4f'%stats.ttest_1samp(x,m

何用 amp section scipy code python statistics numpy

python - 如何用 numpy 计算统计信息 "t-test"

我希望生成一些关于我在python中创建的模型的统计信息。我想对其进行t检验，但想知道是否有一种简单的方法可以使用numpy/scipy来执行此操作。周围有什么好的解释吗？例如，我有三个相关的数据集，如下所示:[55.0,55.0,47.0,47.0,55.0,55.0,55.0,63.0]现在，我想对它们进行学生t检验。最佳答案在scipy.stats中包有几个ttest_...功能。参见here中的示例:>>>print't-statistic=%6.3fpvalue=%6.4f'%stats.ttest_1samp(x,m

何用 amp section scipy code python statistics numpy

来自 t 统计的 Python p 值

我有一些t值和自由度，想从中找到p值(它是双尾的)。在现实世界中，我会使用统计教科书背面的t检验表；如何在Python中进行等效操作？例如t-lookup(5,7)=0.00245或类似的东西。我知道在SciPy中如果我有数组我可以做scipy.stats.ttest_ind，但我没有。我只有t统计量和自由度。最佳答案从http://docs.scipy.org/doc/scipy/reference/tutorial/stats.htmlAsanexercise,wecancalculateourttestalsodirect

Python 来自 section code scipy statistics

来自 t 统计的 Python p 值

我有一些t值和自由度，想从中找到p值(它是双尾的)。在现实世界中，我会使用统计教科书背面的t检验表；如何在Python中进行等效操作？例如t-lookup(5,7)=0.00245或类似的东西。我知道在SciPy中如果我有数组我可以做scipy.stats.ttest_ind，但我没有。我只有t统计量和自由度。最佳答案从http://docs.scipy.org/doc/scipy/reference/tutorial/stats.htmlAsanexercise,wecancalculateourttestalsodirect

Python 来自 section code scipy statistics

python - 在 python scipy 中实现 Kolmogorov Smirnov 测试

我有一个关于N个数字的数据集，我想测试它的正态性。我知道scipy.stats有一个kstestfunction但是没有关于如何使用它以及如何解释结果的示例。有哪位熟悉的可以给我一些建议吗？根据文档，使用kstest返回两个数字，KS检验统计量D和p值。如果p值大于显着性水平(例如5%)，那么我们不能拒绝数据来自给定分布的假设。当我通过从正态分布中抽取10000个样本并测试高斯性进行测试时:importnumpyasnpfromscipy.statsimportkstestmu,sigma=0.07,0.89kstest(np.random.normal(mu,sigma,10000)

python Kolmogorov code data stats scipy statistics statistical-test

python - 在 python scipy 中实现 Kolmogorov Smirnov 测试

我有一个关于N个数字的数据集，我想测试它的正态性。我知道scipy.stats有一个kstestfunction但是没有关于如何使用它以及如何解释结果的示例。有哪位熟悉的可以给我一些建议吗？根据文档，使用kstest返回两个数字，KS检验统计量D和p值。如果p值大于显着性水平(例如5%)，那么我们不能拒绝数据来自给定分布的假设。当我通过从正态分布中抽取10000个样本并测试高斯性进行测试时:importnumpyasnpfromscipy.statsimportkstestmu,sigma=0.07,0.89kstest(np.random.normal(mu,sigma,10000)

python Kolmogorov code data stats scipy statistics statistical-test