pandas-explode

python - 将 pandas DataFrame 列添加到行的最佳方法

这个问题在这里已经有了答案:Meltingapandasdataframe(4个答案)Stackingdataframecolumns(Pandas)(1个回答)关闭4年前。我必须找到使用现有DataFrame创建新DataFrame的最佳方法。查看此链接以获得完整代码:jdoodle.com/a/xKP我有这种数据框:df=pd.DataFrame({'length':[112,214,52,88],'views':[10000,50000,25000,5000],'click':[55,64,85,9]},index=['id1','id2','id3','id4'])clickl

python - 如何按列减少 Pandas 数据框？

我有一个数据框，如下所示:try:fromStringIOimportStringIOexceptImportError:fromioimportStringIOfromfunctoolsimportreduceimportpandasaspdfromnumpyimportuint8,logical_ordf=pd.read_table(StringIO("""abc100111011110"""),sep="\s+",dtype=uint8,header=0)如何按列缩减数据框？目前我只是把所有的向量放在一个列表中并减少它，但这不是最大胆的做法:gene_vectors=[df[v]

python - 如何使用天数作为 pandas rolling_apply 函数的窗口

我有一个日期间隔不规则的Pandas数据框。有没有办法用7天作为移动窗口来计算medianabsolutedeviation，中位数等..？我觉得我可以以某种方式使用pandas.rolling_apply但它不会为window参数采用不规则间隔的日期。我找到了类似的帖子https://stackoverflow.com/a/30244019/3128336并且我正在尝试创建我的自定义函数，但仍然无法弄清楚..任何人都可以帮忙吗？importpandasaspdfromdatetimeimportdatetimeperson=['A','B','C','B','A','C','A','

python - 如何在 json 字段上对 pandas 数据框进行排序

我在Pandas数据框中有这样的数据idimport_idinvestor_idloan_idmeta35736unremit_loss_100312Q050051765139{u'total_paid':u'75',u'total_expense':u'75'}35737unremit_loss_100313Q060051765140{u'total_paid':u'77',u'total_expense':u'78'}35739unremit_loss_100314Q060051765141{u'total_paid':u'80',u'total_expense':u'65'}如何

python - 带有 pandas 和 matplotlib 的条形图顶部的平均线

我正在尝试绘制PandasDataFrame，并添加一条线来显示均值和中位数。正如您在下面看到的，我为均值添加了一条红线，但它没有显示。如果我尝试在5处画一条绿线，它会显示在x=190处。所以显然x值被视为0、1、2，...而不是160、165、170，...如何画线，使其x值与x轴的值匹配？来自Jupyter:完整代码:%matplotlibinlinefrompandasimportSeriesimportmatplotlib.pyplotaspltheights=Series([165,170,195,190,170,170,185,160,170,165,185,195,185

python - 获取 Pandas 中的日期分位数

我有一些看起来像这样的数据:usertimestampvalue1a2007-01-017a2007-02-028a2007-02-039b2007-02-041a2007-02-052b2007-02-063b2007-02-074a2007-02-085...每个用户都有不同数量的条目。我的目标是了解这些条目的生成速度，并输出如下内容:last_entrymedian_entryfirst_entryusera2007-02-082007-02-032007-01-01b2007-02-072007-02-062007-02-04到目前为止，我的代码如下:gb=df.groupby

python - pandas如何计算偏斜

我正在计算一个coskew矩阵，并想用skew方法中内置的pandas仔细检查我的计算。我无法调和pandas执行计算的方式。将我的系列定义为:importpandasaspdseries=pd.Series({0:-0.051917457635120283,1:-0.070071606515280632,2:-0.11204865874074735,3:-0.14679988245503134,4:-0.088062467095565145,5:0.17579741198527793,6:-0.10765856028420773,7:-0.11971470229167547,8:-0

python - 访问 Pandas 数据框中内部多索引级别的最后一个元素

在multiindexpandasdataframe中，我想访问第二个索引的last元素以获取第一个索引的所有值。第二个索引中的级别数根据第一个索引的值而变化。我浏览了pandasmultiindexdocumentation但找不到能做到这一点的任何东西。例如，对于下面的数据框:arrays=[['bar','bar','baz','foo','foo','foo','qux'],['one','two','one','one','two','three','one']]tuples=list(zip(*arrays))index=pd.MultiIndex.from_tuples(

python - 以字符串元组作为索引的 Pandas DataFrame

我在这里感觉到一些奇怪的pandas行为。我有一个看起来像的数据框df=pd.DataFrame(columns=['Col1','Col2','Col3'],index=[('1','a'),('2','a'),('1','b'),('2','b')])In[14]:dfOut[14]:Col1Col2Col3(1,a)NaNNaNNaN(2,a)NaNNaNNaN(1,b)NaNNaNNaN(2,b)NaNNaNNaN我可以设置任意元素的值In[15]:df['Col2'].loc[('1','b')]=6In[16]:dfOut[16]:Col1Col2Col3(1,a)NaNN

python - 从现有数据框的某些列创建新的 Pandas 数据框

我已阅读将csv文件加载到pandas数据框中，并想对该数据框进行一些简单的操作。我不知道如何根据原始数据框中的选定列创建新的数据框。我的尝试:names=['A','B','C','D']dataset=pandas.read_csv('file.csv',names=names)new_dataset=dataset['A','D']我想用原始数据框中的A列和D列创建一个新数据框。最佳答案它被称为subset-在[]中传递的列列表:dataset=pandas.read_csv('file.csv',names=names)