panda_草庐IT

python - 对 Pandas 数据框中的行对执行函数

假设我有以下数据框:>>>df=pd.DataFrame(data=['A','B','C','D','E'],columns=['Name'])>>>dfName0A1B2C3D4E>>>我想为数据框中的相邻行创建一个值列表。如果我创建对的索引，我可以通过使用groupby获得该结果:>>>df.index=[0,0,1,1,2]>>>df.groupby(level=0).agg(lambdax:list(x))Name0[A,B]1[C,D]2[E]最有效的方法是什么？最佳答案您可以一次性按“邻接”分组(不改变DataFr

python - Pandas :合并多个数据框并控制列名？

我想将九个Pandas数据框合并成一个数据框，对两列进行连接，控制列名。这可能吗？我有九个数据集。它们都有以下列:org,name,items,spend我想将它们加入到一个具有以下列的数据框中:org,name,items_df1,spend_df1,items_df2,spend_df2,items_df3...我一直在阅读有关mergingandjoining的文档.我目前可以像这样将两个数据集合并在一起:ad=pd.DataFrame.merge(df_presents,df_trees,on=['practice','name'],suffixes=['_presents',

列名 python code 39 items pandas

Python pandas dataframe 插入缺失数据

我有一个如下所示的数据集。我们只有一个月的最后一天的数据，我正在尝试插入其余数据，这是正确的做法吗？DateAustraliaChina2011-01-01NaNNaN2011-01-02NaNNaN------2011-01-314.755.812011-02-01NaNNaN2011-02-02NaNNaN------2011-02-284.755.812011-03-01NaNNaN2011-03-02NaNNaN------2011-03-314.756.062011-04-01NaNNaN2011-04-02NaNNaN------2011-04-304.756.06为了插入

缺失 dataframe 2011 4.75 5.81 python pandas interpolation

python - 在 Pandas 数据框中的任何列中删除具有 'question mark' 值的行

我想删除任何列中的所有行(或删除所有不带问号的行)。我还想将元素更改为float类型。输入:XYZ01?123??4444?25输出:XYZ123444最好使用pandas数据框操作。最佳答案您可以尝试先在列中查找字符串?，创建bool掩码并最后过滤行-使用booleanindexing.如果您需要将列转换为float，请使用astype:print~((df['X']=='?')(df['Y']=='?')|(df['Z']=='?'))0False1True2False3True4Falsedtype:booldf1=df[

amp question 39 code df python pandas dataframe

python - 如何在 Pandas 中的 transpose() 之后删除多余的行(或列)

在数据帧上使用转置后，总会有一个额外的行作为初始数据帧索引的余数，例如:importpandasaspddf=pd.DataFrame({'fruit':['apple','banana'],'number':[3,5]})dffruitnumber0apple31banana5df.transpose()01fruitapplebanananumber35即使我没有索引:df.reset_index(drop=True,inplace=True)dffruitnumber0apple31banana5df.transpose()01fruitapplebanananumber35问题

何在 transpose code fruit section python csv pandas

python - 如何为 Pandas 数据框的每一行的列分配一个值？

这个问题在这里已经有了答案:Performantcartesianproduct(CROSSJOIN)withpandas(5个答案)关闭3年前。我一直在尝试为数据框的每一行分配一个值，但我一直无法这样做(我是pandas的新手)，所以如果有人能提供帮助，我将不胜感激!我有两个数据框。在输入数据框中，我有品牌:brand_raw.head()brand_name0Nike1Lacoste2Adidas然后，在输出数据集上，我有对象:object_raw.head()category_idobject_name024T-shirt145Shorts232Dress我需要的是一个包含所有对

何为 python section code name pandas dataframe apply

python - 用于访问 Pandas 中的列的括号表示法和点表示法之间的速度差异

让我们有一个小数据框:df=pd.DataFrame({'CID':[1,2,3,4,12345,6]})当我搜索成员资格时，速度会因我要求在df.CID或df['CID']中搜索而有很大不同。In[25]:%timeit12345indf.CIDOut[25]:89.8µs±254nsperloop(mean±std.dev.of7runs,10000loopseach)In[26]:%timeit12345indf['CID']Out[26]:42.3µs±334nsperloop(mean±std.dev.of7runs,10000loopseach)In[27]:type(df

表示法 python code pandas section performance

python - 从 Pandas 数据框构建二维数组

我有一个Pandas数据框:importpandasaspdimportnumpyasnpdf=pd.DataFrame(columns=['Text','Selection_Values'])df["Text"]=["Hi","thisis","just","a","single","sentence.","This",np.nan,"isanotherone.","Thisis","a","third","sentence","."]df["Selection_Values"]=[0,0,0,0,0,1,0,0,1,0,0,0,0,0]print(df)输出:TextSelecti

python Pandas code 34 sentence list

python - 在 Python Pandas 中， boolean 运算

我正在对两个系列执行boolean运算。我期待boolean运算自动执行与同一索引对应的操作。但它只是按顺序执行。这是预期的行为还是有一些不同的方式来做到这一点？谢谢bOut[47]:AEISFalseAAPLTrueACFNFalseName:OldPosition,dtype:boolaOut[48]:AAPLTrueACFNFalseAEISTruedtype:boola&bOut[50]:AAPLFalseACFNFalseAEISFalsedtype:bool 最佳答案这看起来像一个bug对我来说:In[1]:a=pd.

boolean python False section True pandas series

python - 在 Pandas 的多索引数据帧上使用滚动函数

我在pandas中有一个多索引数据框，其中索引在ID和时间戳上。我希望能够计算每个ID的时间序列滚动总和，但我似乎无法弄清楚如何在没有循环的情况下进行计算。content=io.BytesIO("""\IDstimestampvalue02010-10-30102010-11-30202011-11-30312000-01-0130012007-01-013312010-01-0140022000-01-0111""")df=pd.read_table(content,header=0,sep='\s+',parse_dates=[1])df.set_index(['IDs','tim

多索 python 01 section 2010 pandas dataframe