草庐IT

Pandas-Datareader

全部标签

python - Pandas groupby : get size of a group knowing its id (from . grouper.group_info[0])

在下面的代码片段中,data是一个pandas.DataFrame,indices是data的一组列>。使用groupby对数据进行分组后,我对组的ID感兴趣,但只对大小大于阈值(例如:3)的ID感兴趣。group_ids=data.groupby(list(data.columns[list(indices)])).grouper.group_info[0]现在,我如何在知道组ID的情况下找到大小大于或等于3的组?我只想要具有特定大小的组的ID。#TODO:filteroutidsfromgroup_idswhichcorrespondtogroupswithsizes

python - Pandas groupby : get size of a group knowing its id (from . grouper.group_info[0])

在下面的代码片段中,data是一个pandas.DataFrame,indices是data的一组列>。使用groupby对数据进行分组后,我对组的ID感兴趣,但只对大小大于阈值(例如:3)的ID感兴趣。group_ids=data.groupby(list(data.columns[list(indices)])).grouper.group_info[0]现在,我如何在知道组ID的情况下找到大小大于或等于3的组?我只想要具有特定大小的组的ID。#TODO:filteroutidsfromgroup_idswhichcorrespondtogroupswithsizes

Python Pandas 选择指数大于 x 的指数

假设我有一个DataFramedf,其中日期作为索引和一些值。如何选择日期大于某个值x的行?我知道我可以将索引转换为列,然后执行选择df[df['date']>x],但这比对索引执行操作慢吗? 最佳答案 使用索引从DataFrame中选择的示例:fromnumpy.randomimportrandnfrompandasimportDataFramefromdatetimeimporttimedeltaastdimportdateutil.parserd=dateutil.parser.parse("2014-01-01")df=Da

Python Pandas 选择指数大于 x 的指数

假设我有一个DataFramedf,其中日期作为索引和一些值。如何选择日期大于某个值x的行?我知道我可以将索引转换为列,然后执行选择df[df['date']>x],但这比对索引执行操作慢吗? 最佳答案 使用索引从DataFrame中选择的示例:fromnumpy.randomimportrandnfrompandasimportDataFramefromdatetimeimporttimedeltaastdimportdateutil.parserd=dateutil.parser.parse("2014-01-01")df=Da

Python pandas 时间序列插值和正则化

我是第一次使用PythonPandas。我有5分钟的csv格式滞后流量数据:...2015-01-0408:29:05,2712382015-01-0408:34:05,3292852015-01-0408:39:05,-12015-01-0408:44:05,2602602015-01-0408:49:05,263711...有几个问题:对于某些时间戳,缺少数据(-1)缺少条目(也是连续2/3小时)观察的频率不是正好5分钟,但实际上偶尔会损失几秒我想获得一个规则的时间序列,因此每(恰好)5分钟输入一次(并且没有遗漏值)。我已经成功地使用以下代码对时间序列进行了插值,以使用此代码近似于

Python pandas 时间序列插值和正则化

我是第一次使用PythonPandas。我有5分钟的csv格式滞后流量数据:...2015-01-0408:29:05,2712382015-01-0408:34:05,3292852015-01-0408:39:05,-12015-01-0408:44:05,2602602015-01-0408:49:05,263711...有几个问题:对于某些时间戳,缺少数据(-1)缺少条目(也是连续2/3小时)观察的频率不是正好5分钟,但实际上偶尔会损失几秒我想获得一个规则的时间序列,因此每(恰好)5分钟输入一次(并且没有遗漏值)。我已经成功地使用以下代码对时间序列进行了插值,以使用此代码近似于

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数,为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典,我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数,为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典,我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego

python - Pandas 按年分组,按销售列排名,在具有重复数据的数据框中

我想按年份创建排名(因此在2012年,经理B是1。在2011年,经理B又是1)。我在pandasrank函数上挣扎了一段时间,不想求助于for循环。s=pd.DataFrame([['2012','A',3],['2012','B',8],['2011','A',20],['2011','B',30]],columns=['Year','Manager','Return'])Out[1]:YearManagerReturn02012A312012B822011A2032011B30我遇到的问题是附加代码(之前认为这不相关):s=pd.DataFrame([['2012','A',3],

python - Pandas 按年分组,按销售列排名,在具有重复数据的数据框中

我想按年份创建排名(因此在2012年,经理B是1。在2011年,经理B又是1)。我在pandasrank函数上挣扎了一段时间,不想求助于for循环。s=pd.DataFrame([['2012','A',3],['2012','B',8],['2011','A',20],['2011','B',30]],columns=['Year','Manager','Return'])Out[1]:YearManagerReturn02012A312012B822011A2032011B30我遇到的问题是附加代码(之前认为这不相关):s=pd.DataFrame([['2012','A',3],