草庐IT

statistics

全部标签

python - Pandas - 计算所有列的 z 分数

我有一个包含单列ID的数据框,所有其他列都是我想要计算z分数的数值。这是它的一个小节:IDAgeBMIRiskFactorPT64819.34PT84320.9NaNPT23918.13PT94119.5NaN我的一些列包含NaN值,我不想将其包含在z分数计算中,因此我打算使用为这个问题提供的解决方案:howtozscorenormalizepandascolumnwithnans?df['zscore']=(df.a-df.a.mean())/df.a.std(ddof=0)我有兴趣将此解决方案应用于除ID列之外的所有列,以生成一个新数据框,我可以使用该数据框将其保存为Excel文件

python - Pandas - 计算所有列的 z 分数

我有一个包含单列ID的数据框,所有其他列都是我想要计算z分数的数值。这是它的一个小节:IDAgeBMIRiskFactorPT64819.34PT84320.9NaNPT23918.13PT94119.5NaN我的一些列包含NaN值,我不想将其包含在z分数计算中,因此我打算使用为这个问题提供的解决方案:howtozscorenormalizepandascolumnwithnans?df['zscore']=(df.a-df.a.mean())/df.a.std(ddof=0)我有兴趣将此解决方案应用于除ID列之外的所有列,以生成一个新数据框,我可以使用该数据框将其保存为Excel文件

python - StatsModels 的置信区间和预测区间

我用StatsModels做这个线性回归:importnumpyasnpimportstatsmodels.apiassmfromstatsmodels.sandbox.regression.predstdimportwls_prediction_stdn=100x=np.linspace(0,10,n)e=np.random.normal(size=n)y=1+0.5*x+2*eX=sm.add_constant(x)re=sm.OLS(y,X).fit()print(re.summary())prstd,iv_l,iv_u=wls_prediction_std(re)我的问题是,i

python - StatsModels 的置信区间和预测区间

我用StatsModels做这个线性回归:importnumpyasnpimportstatsmodels.apiassmfromstatsmodels.sandbox.regression.predstdimportwls_prediction_stdn=100x=np.linspace(0,10,n)e=np.random.normal(size=n)y=1+0.5*x+2*eX=sm.add_constant(x)re=sm.OLS(y,X).fit()print(re.summary())prstd,iv_l,iv_u=wls_prediction_std(re)我的问题是,i

python - 在 python pandas 中构造一个共现矩阵

我知道如何在R中执行此操作.但是,pandas中是否有任何函数可以将数据帧转换为nxn共现矩阵,其中包含同时出现的两个方面的计数。例如一个矩阵df:importpandasaspddf=pd.DataFrame({'TFD':['AA','SL','BB','D0','Dk','FF'],'Snack':['1','0','1','1','0','0'],'Trans':['1','1','1','0','0','1'],'Dop':['1','0','1','0','1','1']}).set_index('TFD')printdf>>>DopSnackTransTFDAA111SL

python - 在 python pandas 中构造一个共现矩阵

我知道如何在R中执行此操作.但是,pandas中是否有任何函数可以将数据帧转换为nxn共现矩阵,其中包含同时出现的两个方面的计数。例如一个矩阵df:importpandasaspddf=pd.DataFrame({'TFD':['AA','SL','BB','D0','Dk','FF'],'Snack':['1','0','1','1','0','0'],'Trans':['1','1','1','0','0','1'],'Dop':['1','0','1','0','1','1']}).set_index('TFD')printdf>>>DopSnackTransTFDAA111SL

python - 为什么 statistics.mean() 这么慢?

我比较了statistics模块的mean函数与简单的sum(l)/len(l)方法的性能,并由于某种原因,发现mean函数非常慢。我使用timeit和下面的两个代码片段来比较它们,有谁知道是什么导致了执行速度的巨大差异?我正在使用Python3.5。fromtimeitimportrepeatprint(min(repeat('mean(l)','''fromrandomimportrandint;fromstatisticsimportmean;\l=[randint(0,10000)foriinrange(10000)]''',repeat=20,number=10)))上面的代

python - 为什么 statistics.mean() 这么慢?

我比较了statistics模块的mean函数与简单的sum(l)/len(l)方法的性能,并由于某种原因,发现mean函数非常慢。我使用timeit和下面的两个代码片段来比较它们,有谁知道是什么导致了执行速度的巨大差异?我正在使用Python3.5。fromtimeitimportrepeatprint(min(repeat('mean(l)','''fromrandomimportrandint;fromstatisticsimportmean;\l=[randint(0,10000)foriinrange(10000)]''',repeat=20,number=10)))上面的代

python - z分数的概率,反之亦然

如何计算p-value的zscore,反之亦然?例如,如果我的p值为0.95,我应该得到1.96作为返回。我在scipy中看到了一些函数,但它们只在数组上运行z-test。我可以访问numpy、statsmodel、pandas和scipy(我认为)。 最佳答案 >>>importscipy.statsasst>>>st.norm.ppf(.95)1.6448536269514722>>>st.norm.cdf(1.64)0.94949741652589625正如其他用户所指出的,Python默认计算左/下尾概率。如果要确定包含95

python - z分数的概率,反之亦然

如何计算p-value的zscore,反之亦然?例如,如果我的p值为0.95,我应该得到1.96作为返回。我在scipy中看到了一些函数,但它们只在数组上运行z-test。我可以访问numpy、statsmodel、pandas和scipy(我认为)。 最佳答案 >>>importscipy.statsasst>>>st.norm.ppf(.95)1.6448536269514722>>>st.norm.cdf(1.64)0.94949741652589625正如其他用户所指出的,Python默认计算左/下尾概率。如果要确定包含95