草庐IT

statistics

全部标签

python - 什么是如何阅读 TensorBoard 的直方图特征的一个很好的解释?

问题很简单,您如何阅读这些图表?我读了他们的解释,这对我来说没有意义。我正在阅读TensorFlow的newlyupdatedreadmefileforTensorBoard并在其中试图解释什么是“直方图”。首先,它澄清了它并不是真正的直方图:Rightnow,itsnameisabitofamisnomer,asitdoesn'tshowhistograms;instead,itshowssomehigh-levelstatisticsonadistribution.我试图弄清楚他们的描述实际上想要表达什么。现在我正在尝试解析特定的句子:Eachlineonthechartrepre

python - 什么是如何阅读 TensorBoard 的直方图特征的一个很好的解释?

问题很简单,您如何阅读这些图表?我读了他们的解释,这对我来说没有意义。我正在阅读TensorFlow的newlyupdatedreadmefileforTensorBoard并在其中试图解释什么是“直方图”。首先,它澄清了它并不是真正的直方图:Rightnow,itsnameisabitofamisnomer,asitdoesn'tshowhistograms;instead,itshowssomehigh-levelstatisticsonadistribution.我试图弄清楚他们的描述实际上想要表达什么。现在我正在尝试解析特定的句子:Eachlineonthechartrepre

python - 执行 2 个样本 t 检验

我有样本1和样本2的平均值、标准差和n-样本取自样本总体,但由不同的实验室测量。样本1和样本2的n不同。我想做一个加权(考虑n)双尾t检验。我尝试使用scipy.stat模块通过使用np.random.normal创建我的数字,因为它只需要数据而不是像mean和stddev这样的统计值(有什么方法可以直接使用这些值)。但它不起作用,因为数据数组必须具有相同的大小。任何有关如何获得p值的帮助将不胜感激。 最佳答案 如果你有数组a和b的原始数据,你可以使用scipy.stats.ttest_ind使用参数equal_var=False:

python - 执行 2 个样本 t 检验

我有样本1和样本2的平均值、标准差和n-样本取自样本总体,但由不同的实验室测量。样本1和样本2的n不同。我想做一个加权(考虑n)双尾t检验。我尝试使用scipy.stat模块通过使用np.random.normal创建我的数字,因为它只需要数据而不是像mean和stddev这样的统计值(有什么方法可以直接使用这些值)。但它不起作用,因为数据数组必须具有相同的大小。任何有关如何获得p值的帮助将不胜感激。 最佳答案 如果你有数组a和b的原始数据,你可以使用scipy.stats.ttest_ind使用参数equal_var=False:

python - 如何找到真实数据的概率分布和参数? (Python 3)

我有一个来自sklearn的数据集,我绘制了load_diabetes.target数据的分布(即load_diabetes.data用于预测)。我使用它是因为它具有最少数量的回归变量/属性sklearn.datasets。使用Python3,我怎样才能得到最接近分布的分布类型和参数?我所知道的target值都是正的和偏斜的(正偏斜/右偏斜)。..Python中有没有办法提供一些分布,然后获得最适合target数据/向量的分布?或者,根据给出的数据实际建议适合?这对于具有理论统计知识但很少有将其应用于“真实数据”经验的人来说将非常有用。奖金使用这种方法来确定“真实数据”的后验分布是否有

python - 如何找到真实数据的概率分布和参数? (Python 3)

我有一个来自sklearn的数据集,我绘制了load_diabetes.target数据的分布(即load_diabetes.data用于预测)。我使用它是因为它具有最少数量的回归变量/属性sklearn.datasets。使用Python3,我怎样才能得到最接近分布的分布类型和参数?我所知道的target值都是正的和偏斜的(正偏斜/右偏斜)。..Python中有没有办法提供一些分布,然后获得最适合target数据/向量的分布?或者,根据给出的数据实际建议适合?这对于具有理论统计知识但很少有将其应用于“真实数据”经验的人来说将非常有用。奖金使用这种方法来确定“真实数据”的后验分布是否有

python - 具有缺失值的分类数据中的降维

我有一个回归模型,其中因变量是连续的,但90%的自变量是分类变量(有序和无序),大约30%的记录有缺失值(更糟糕的是,它们随机缺失任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,它基本上是频率表上主成分分析的变体)。我还要补充一点,数据集的大小适中,有500000个观测值,有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补,然后是降维),是否有很好的统计引用?这与上述问题的实

python - 具有缺失值的分类数据中的降维

我有一个回归模型,其中因变量是连续的,但90%的自变量是分类变量(有序和无序),大约30%的记录有缺失值(更糟糕的是,它们随机缺失任何模式,也就是说,超过45%的数据至少有一个缺失值)。没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,它基本上是频率表上主成分分析的变体)。我还要补充一点,数据集的大小适中,有500000个观测值,有200个变量。我有两个问题。对于分类数据的降维以及稳健的插补(我认为第一个问题是插补,然后是降维),是否有很好的统计引用?这与上述问题的实

python - 在 Python 中使用 Holt-Winters 进行预测

我一直在尝试使用thisimplementationoftheHolt-Wintersalgorithm对于Python中的时间序列预测,但遇到了障碍……基本上,对于某些(正)输入序列,它有时会预测负数,显然情况并非如此。即使预测不是负面的,它们有时也会非常不准确——比应有的高/低几个数量级。给算法更多的数据周期似乎没有帮助,实际上往往会使预测变得更糟。我使用的数据有以下特点,可能有问题:非常频繁地采样(每15分钟一个数据点,而不是示例使用的每月数据)-但根据我的阅读,Holt-Winters算法应该没有问题。也许这表明实现存在问题?具有多个周期性-有每日峰值(即每96个数据点)以及周

python - 在 Python 中使用 Holt-Winters 进行预测

我一直在尝试使用thisimplementationoftheHolt-Wintersalgorithm对于Python中的时间序列预测,但遇到了障碍……基本上,对于某些(正)输入序列,它有时会预测负数,显然情况并非如此。即使预测不是负面的,它们有时也会非常不准确——比应有的高/低几个数量级。给算法更多的数据周期似乎没有帮助,实际上往往会使预测变得更糟。我使用的数据有以下特点,可能有问题:非常频繁地采样(每15分钟一个数据点,而不是示例使用的每月数据)-但根据我的阅读,Holt-Winters算法应该没有问题。也许这表明实现存在问题?具有多个周期性-有每日峰值(即每96个数据点)以及周