pandas-explode

python - Pandas 根据另一个数据框中的匹配列填充新的数据框列

我有一个df其中包含我的主要数据，其中有一百万rows.我的主数据也有30columns.现在我想在我的df中添加另一列称为category.category是column在df2其中包含大约700个rows和另外两个columns将匹配两个columns在df.我首先设置一个index在df2和df这将在帧之间匹配，但是一些index在df2df中不存在.df2中的剩余列被称为AUTHOR_NAME和CATEGORY.df中的相关栏目叫做AUTHOR_NAME.一些AUTHOR_NAME在dfdf2中不存在反之亦然。我想要的指令是:当index在df与index匹配在df2和titl

配列 python code AUTHOR_NAME author pandas merge populate

python - Pandas groupby(),agg() - 如何在没有多索引的情况下返回结果？

我有一个数据框:pe_odds[['EVENT_ID','SELECTION_ID','ODDS']]Out[67]:EVENT_IDSELECTION_IDODDS0100429300529752918.001100429300529752920.002100429300529752921.003100429300529752922.004100429300529752923.005100429300529752924.006100429300529752925.00当我使用groupby和agg时，我得到了一个多索引的结果:pe_odds.groupby(['EVENT_ID','

多索何在 SELECTION_ID 39 python pandas group-by aggregate multi-index

python - Pandas groupby(),agg() - 如何在没有多索引的情况下返回结果？

我有一个数据框:pe_odds[['EVENT_ID','SELECTION_ID','ODDS']]Out[67]:EVENT_IDSELECTION_IDODDS0100429300529752918.001100429300529752920.002100429300529752921.003100429300529752922.004100429300529752923.005100429300529752924.006100429300529752925.00当我使用groupby和agg时，我得到了一个多索引的结果:pe_odds.groupby(['EVENT_ID','

多索何在 SELECTION_ID 39 python pandas group-by aggregate multi-index

python - 使用 geopy pandas 的坐标新列

我有一个df:importpandasaspdimportnumpyasnpimportdatetimeasDTimporthmacfromgeopy.geocodersimportNominatimfromgeopy.distanceimportvincentydfcity_namestate_namecounty_name0WASHINGTONDCDISTOFCOLUMBIA1WASHINGTONDCDISTOFCOLUMBIA2WASHINGTONDCDISTOFCOLUMBIA3WASHINGTONDCDISTOFCOLUMBIA4WASHINGTONDCDISTOFCOLUM

标新 python WASHINGTON COLUMBIA DIST pandas geopy

python - 使用 geopy pandas 的坐标新列

我有一个df:importpandasaspdimportnumpyasnpimportdatetimeasDTimporthmacfromgeopy.geocodersimportNominatimfromgeopy.distanceimportvincentydfcity_namestate_namecounty_name0WASHINGTONDCDISTOFCOLUMBIA1WASHINGTONDCDISTOFCOLUMBIA2WASHINGTONDCDISTOFCOLUMBIA3WASHINGTONDCDISTOFCOLUMBIA4WASHINGTONDCDISTOFCOLUM

标新 python WASHINGTON COLUMBIA DIST pandas geopy

python - Pandas :有条件的转变

有一种方法可以根据其他两列的条件来移动数据框列吗？像这样的东西:df["cumulated_closed_value"]=df.groupby("user").['close_cumsum'].shiftWhile(df['close_time']>df['open_time])我已经找到了一种方法来做到这一点，但效率很低:1)加载数据并创建要移动的列df=pd.read_csv('data.csv')df.sort_values(['user','close_time'],inplace=True)df['close_cumsum']=df.groupby('user')['valu

python Pandas 39 2017 time datetime data-analysis

python - Pandas :有条件的转变

有一种方法可以根据其他两列的条件来移动数据框列吗？像这样的东西:df["cumulated_closed_value"]=df.groupby("user").['close_cumsum'].shiftWhile(df['close_time']>df['open_time])我已经找到了一种方法来做到这一点，但效率很低:1)加载数据并创建要移动的列df=pd.read_csv('data.csv')df.sort_values(['user','close_time'],inplace=True)df['close_cumsum']=df.groupby('user')['valu

python Pandas 39 2017 time datetime data-analysis

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做？最佳答案这里有一个优化的方式来解析带有re的文件，首先获取ID，然后解析数据元组。

DataFrame 本文 code gt 34 python pandas

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做？最佳答案这里有一个优化的方式来解析带有re的文件，首先获取ID，然后解析数据元组。

DataFrame 本文 code gt 34 python pandas

python - Pandas groupby : get size of a group knowing its id (from . grouper.group_info[0])

在下面的代码片段中，data是一个pandas.DataFrame，indices是data的一组列>。使用groupby对数据进行分组后，我对组的ID感兴趣，但只对大小大于阈值(例如:3)的ID感兴趣。group_ids=data.groupby(list(data.columns[list(indices)])).grouper.group_info[0]现在，我如何在知道组ID的情况下找到大小大于或等于3的组？我只想要具有特定大小的组的ID。#TODO:filteroutidsfromgroup_idswhichcorrespondtogroupswithsizes

group group_info code size groupby python group-by pandas