草庐IT

pyhton_Pandas

全部标签

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做? 最佳答案 这里有一个优化的方式来解析带有re的文件,首先获取ID,然后解析数据元组。

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做? 最佳答案 这里有一个优化的方式来解析带有re的文件,首先获取ID,然后解析数据元组。

python - Pandas groupby : get size of a group knowing its id (from . grouper.group_info[0])

在下面的代码片段中,data是一个pandas.DataFrame,indices是data的一组列>。使用groupby对数据进行分组后,我对组的ID感兴趣,但只对大小大于阈值(例如:3)的ID感兴趣。group_ids=data.groupby(list(data.columns[list(indices)])).grouper.group_info[0]现在,我如何在知道组ID的情况下找到大小大于或等于3的组?我只想要具有特定大小的组的ID。#TODO:filteroutidsfromgroup_idswhichcorrespondtogroupswithsizes

python - Pandas groupby : get size of a group knowing its id (from . grouper.group_info[0])

在下面的代码片段中,data是一个pandas.DataFrame,indices是data的一组列>。使用groupby对数据进行分组后,我对组的ID感兴趣,但只对大小大于阈值(例如:3)的ID感兴趣。group_ids=data.groupby(list(data.columns[list(indices)])).grouper.group_info[0]现在,我如何在知道组ID的情况下找到大小大于或等于3的组?我只想要具有特定大小的组的ID。#TODO:filteroutidsfromgroup_idswhichcorrespondtogroupswithsizes

Python Pandas 选择指数大于 x 的指数

假设我有一个DataFramedf,其中日期作为索引和一些值。如何选择日期大于某个值x的行?我知道我可以将索引转换为列,然后执行选择df[df['date']>x],但这比对索引执行操作慢吗? 最佳答案 使用索引从DataFrame中选择的示例:fromnumpy.randomimportrandnfrompandasimportDataFramefromdatetimeimporttimedeltaastdimportdateutil.parserd=dateutil.parser.parse("2014-01-01")df=Da

Python Pandas 选择指数大于 x 的指数

假设我有一个DataFramedf,其中日期作为索引和一些值。如何选择日期大于某个值x的行?我知道我可以将索引转换为列,然后执行选择df[df['date']>x],但这比对索引执行操作慢吗? 最佳答案 使用索引从DataFrame中选择的示例:fromnumpy.randomimportrandnfrompandasimportDataFramefromdatetimeimporttimedeltaastdimportdateutil.parserd=dateutil.parser.parse("2014-01-01")df=Da

Python pandas 时间序列插值和正则化

我是第一次使用PythonPandas。我有5分钟的csv格式滞后流量数据:...2015-01-0408:29:05,2712382015-01-0408:34:05,3292852015-01-0408:39:05,-12015-01-0408:44:05,2602602015-01-0408:49:05,263711...有几个问题:对于某些时间戳,缺少数据(-1)缺少条目(也是连续2/3小时)观察的频率不是正好5分钟,但实际上偶尔会损失几秒我想获得一个规则的时间序列,因此每(恰好)5分钟输入一次(并且没有遗漏值)。我已经成功地使用以下代码对时间序列进行了插值,以使用此代码近似于

Python pandas 时间序列插值和正则化

我是第一次使用PythonPandas。我有5分钟的csv格式滞后流量数据:...2015-01-0408:29:05,2712382015-01-0408:34:05,3292852015-01-0408:39:05,-12015-01-0408:44:05,2602602015-01-0408:49:05,263711...有几个问题:对于某些时间戳,缺少数据(-1)缺少条目(也是连续2/3小时)观察的频率不是正好5分钟,但实际上偶尔会损失几秒我想获得一个规则的时间序列,因此每(恰好)5分钟输入一次(并且没有遗漏值)。我已经成功地使用以下代码对时间序列进行了插值,以使用此代码近似于

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数,为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典,我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数,为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典,我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego