草庐IT

dataframe

全部标签

python - 如何将 pandas DataFrame 的列转换为列表列表?

我有一个包含多列的pandasDataFrame。2u2s4r4n4m7h7v011000101010011001010100011010100100110001我想要做的是将这个pandas.DataFrame进入如下列表X=[[0,0,1,1,1,0],[1,1,0,0,0,1],[1,0,0,0,1,1],[0,1,1,0,0,0],[0,0,0,1,0,0],[0,0,1,1,1,0],[1,1,0,0,0,1]]2u2s4r4n4m7h7v是列标题。在不同的情况下会发生变化,所以不要在意。 最佳答案 它看起来像一个转置矩阵

python - DataFrame中列之间的相关性

我对pandas很陌生,所以我想我做错了什么-我有一个数据框:ab00.50.7510.50.7520.50.7530.50.7540.50.75df.corr()给我:abaNaNNaNbNaNNaN但是np.correlate(df["a"],df["b"])给出:1.875这是为什么呢?我想为我的DataFrame获得相关矩阵,并认为corr()可以做到这一点(至少根据文档)。为什么返回NaN?正确的计算方法是什么?非常感谢! 最佳答案 np.correlate计算(未标准化)cross-correlation两个一维序列之间

python - DataFrame中列之间的相关性

我对pandas很陌生,所以我想我做错了什么-我有一个数据框:ab00.50.7510.50.7520.50.7530.50.7540.50.75df.corr()给我:abaNaNNaNbNaNNaN但是np.correlate(df["a"],df["b"])给出:1.875这是为什么呢?我想为我的DataFrame获得相关矩阵,并认为corr()可以做到这一点(至少根据文档)。为什么返回NaN?正确的计算方法是什么?非常感谢! 最佳答案 np.correlate计算(未标准化)cross-correlation两个一维序列之间

python - Pandas - 计算所有列的 z 分数

我有一个包含单列ID的数据框,所有其他列都是我想要计算z分数的数值。这是它的一个小节:IDAgeBMIRiskFactorPT64819.34PT84320.9NaNPT23918.13PT94119.5NaN我的一些列包含NaN值,我不想将其包含在z分数计算中,因此我打算使用为这个问题提供的解决方案:howtozscorenormalizepandascolumnwithnans?df['zscore']=(df.a-df.a.mean())/df.a.std(ddof=0)我有兴趣将此解决方案应用于除ID列之外的所有列,以生成一个新数据框,我可以使用该数据框将其保存为Excel文件

python - Pandas - 计算所有列的 z 分数

我有一个包含单列ID的数据框,所有其他列都是我想要计算z分数的数值。这是它的一个小节:IDAgeBMIRiskFactorPT64819.34PT84320.9NaNPT23918.13PT94119.5NaN我的一些列包含NaN值,我不想将其包含在z分数计算中,因此我打算使用为这个问题提供的解决方案:howtozscorenormalizepandascolumnwithnans?df['zscore']=(df.a-df.a.mean())/df.a.std(ddof=0)我有兴趣将此解决方案应用于除ID列之外的所有列,以生成一个新数据框,我可以使用该数据框将其保存为Excel文件

python - 如何从对象为 datetime.time 类型的 Pandas DataFrame.Index 中添加/减去时间(小时、分钟等)?

我有一个索引只是datetime.time的DataFrame,并且DataFrame.Index和datetime.time中没有方法可以改变时间。datetime.time已替换,但仅适用于系列的个别项目?下面是使用的索引示例:In[526]:dfa.index[:5]Out[526]:Index([21:12:19,21:12:20,21:12:21,21:12:21,21:12:22],dtype='object')In[527]:type(dfa.index[0])Out[527]:datetime.time 最佳答案 L

python - 如何从对象为 datetime.time 类型的 Pandas DataFrame.Index 中添加/减去时间(小时、分钟等)?

我有一个索引只是datetime.time的DataFrame,并且DataFrame.Index和datetime.time中没有方法可以改变时间。datetime.time已替换,但仅适用于系列的个别项目?下面是使用的索引示例:In[526]:dfa.index[:5]Out[526]:Index([21:12:19,21:12:20,21:12:21,21:12:21,21:12:22],dtype='object')In[527]:type(dfa.index[0])Out[527]:datetime.time 最佳答案 L

python - 如何在 python Pandas 中执行/解决条件连接?

我正在尝试根据存储在单独表中的日期值来计算Pandas中基于时间的聚合。第一个表table_a的顶部如下所示:COMPANY_IDDATEMEASURE12010-01-0100:00:001012010-01-0200:00:001012010-01-0300:00:001012010-01-0400:00:001012010-01-0500:00:0010创建表格的代码如下:table_a=pd.concat(\[pd.DataFrame({'DATE':pd.date_range("01/01/2010","12/31/2010",freq="D"),\'COMPANY_ID':

python - 如何在 python Pandas 中执行/解决条件连接?

我正在尝试根据存储在单独表中的日期值来计算Pandas中基于时间的聚合。第一个表table_a的顶部如下所示:COMPANY_IDDATEMEASURE12010-01-0100:00:001012010-01-0200:00:001012010-01-0300:00:001012010-01-0400:00:001012010-01-0500:00:0010创建表格的代码如下:table_a=pd.concat(\[pd.DataFrame({'DATE':pd.date_range("01/01/2010","12/31/2010",freq="D"),\'COMPANY_ID':

python - 特定列上 Pandas 的滚动平均值

我有一个这样的数据框,它是从CSV导入的。stockpopDate2016-01-04325.316822016-01-11320.036832016-01-18299.169792016-01-25296.579842016-02-01295.334822016-02-08309.777812016-02-15317.397752016-02-22328.005802016-02-29315.504812016-03-07328.802812016-03-14339.559862016-03-21352.160822016-03-28348.773842016-04-04346.48