草庐IT

Dataframe

全部标签

python - 如何判断 Pandas 数据框中的列是否属于日期时间类型?如何判断列是否为数字?

我正在尝试根据它们是否属于日期类型来过滤pandas数据框中的列。我可以找出哪些是,但随后必须解析该输出或手动选择列。我想自动选择日期列。这是我到目前为止的示例-在这种情况下我只想选择“date_col”列。importpandasaspddf=pd.DataFrame([['Feb-2017',1,2],['Mar-2017',1,2],['Apr-2017',1,2],['May-2017',1,2]],columns=['date_str','col1','col2'])df['date_col']=pd.to_datetime(df['date_str'])df.dtypes输

python - 如何判断 Pandas 数据框中的列是否属于日期时间类型?如何判断列是否为数字?

我正在尝试根据它们是否属于日期类型来过滤pandas数据框中的列。我可以找出哪些是,但随后必须解析该输出或手动选择列。我想自动选择日期列。这是我到目前为止的示例-在这种情况下我只想选择“date_col”列。importpandasaspddf=pd.DataFrame([['Feb-2017',1,2],['Mar-2017',1,2],['Apr-2017',1,2],['May-2017',1,2]],columns=['date_str','col1','col2'])df['date_col']=pd.to_datetime(df['date_str'])df.dtypes输

python - 如何对 Pandas 的多索引进行分组?

下面是我的数据框。我进行了一些转换以创建类别列并删除了它派生的原始列。现在我需要做一个分组来删除重复项,例如Love和Fashion可以通过groupby求和来汇总。df.colunms=array([category,clicks,revenue,date,impressions,size],dtype=object)df.values=[[Love00.368232013-11-04380300x250][Love183474.815222013-11-04374242300x250][Fashion00.194342013-11-04197300x250][Fashion918.

python - 如何对 Pandas 的多索引进行分组?

下面是我的数据框。我进行了一些转换以创建类别列并删除了它派生的原始列。现在我需要做一个分组来删除重复项,例如Love和Fashion可以通过groupby求和来汇总。df.colunms=array([category,clicks,revenue,date,impressions,size],dtype=object)df.values=[[Love00.368232013-11-04380300x250][Love183474.815222013-11-04374242300x250][Fashion00.194342013-11-04197300x250][Fashion918.

python - 应用于每一列的 Pandas value_counts

我有一个dataframe,其中包含来自外部源(csv文件)的大量列(≈30),但其中有几个没有值或始终相同。因此,我想快速查看每列的value_counts,我该怎么做?例如Id,temp,name134,null,mark222,null,mark334,null,mark会返回一个对象说明编号:34->2、22->1温度:空->3姓名:标记->3所以我会知道temp是无关紧要的,name也不有趣(总是一样的) 最佳答案 对于数据框,df=pd.DataFrame(data=[[34,'null','mark'],[22,'nu

python - 应用于每一列的 Pandas value_counts

我有一个dataframe,其中包含来自外部源(csv文件)的大量列(≈30),但其中有几个没有值或始终相同。因此,我想快速查看每列的value_counts,我该怎么做?例如Id,temp,name134,null,mark222,null,mark334,null,mark会返回一个对象说明编号:34->2、22->1温度:空->3姓名:标记->3所以我会知道temp是无关紧要的,name也不有趣(总是一样的) 最佳答案 对于数据框,df=pd.DataFrame(data=[[34,'null','mark'],[22,'nu

python - 如何解决 AttributeError : 'DataFrame' object has no attribute

我知道以前有人问过这种问题,我已经检查了所有的答案,我也试了好几次都没有找到解决办法。事实上,我使用Pandas调用Dataframe。我已经上传了一个csv.file。当我键入data.Country和data.Year时,我会显示第一列和第二列。然而,当我输入data.Number时,每次它都会给我这个错误:AttributeError:'DataFrame'objecthasnoattribute'Number'. 最佳答案 使用data.columns检查您的DataFrame它应该打印这样的东西Index([u'regim

python - 如何解决 AttributeError : 'DataFrame' object has no attribute

我知道以前有人问过这种问题,我已经检查了所有的答案,我也试了好几次都没有找到解决办法。事实上,我使用Pandas调用Dataframe。我已经上传了一个csv.file。当我键入data.Country和data.Year时,我会显示第一列和第二列。然而,当我输入data.Number时,每次它都会给我这个错误:AttributeError:'DataFrame'objecthasnoattribute'Number'. 最佳答案 使用data.columns检查您的DataFrame它应该打印这样的东西Index([u'regim

python - pandas.DataFrame 中一列的反向累积总和

我有一个pandasDataFrame,其中一个bool列按另一列排序,需要计算bool列的反向累积和,即从当前行到底部的真实值的数量。例子In[13]:df=pd.DataFrame({'A':[True]*3+[False]*5,'B':np.random.rand(8)})In[15]:df=df.sort_values('B')In[16]:dfOut[16]:AB6False0.0377102True0.3154144False0.3324807False0.4455053False0.5801561True0.7415515False0.7969440True0.81756

python - pandas.DataFrame 中一列的反向累积总和

我有一个pandasDataFrame,其中一个bool列按另一列排序,需要计算bool列的反向累积和,即从当前行到底部的真实值的数量。例子In[13]:df=pd.DataFrame({'A':[True]*3+[False]*5,'B':np.random.rand(8)})In[15]:df=df.sort_values('B')In[16]:dfOut[16]:AB6False0.0377102True0.3154144False0.3324807False0.4455053False0.5801561True0.7415515False0.7969440True0.81756