pyhton_Pandas

python - 比较 Pandas Dataframe 行和删除具有重叠日期的行

我有一个数据框，其中包含从交易策略中获取的交易。交易策略中的逻辑需要更新，以确保如果策略已经在交易中则不会进行交易——但这是一个不同的问题。许多先前交易的交易数据从csv文件读入数据框。这是我的数据问题:我需要对数据帧进行逐行比较，以确定rowX的Entrydate是否小于ExitDaterowX-1。我的数据样本:Row1:EntryDateExitDate2012-07-252012-07-27Row2:EntryDateExitDate2012-07-262012-07-29第2行需要删除，因为这是不应该发生的交易。我无法确定哪些行是重复的，然后删除它们。我尝试了approach

python - Pandas Dataframe 添加标题而不替换当前标题

如何在不替换当前标题的情况下向DF添加标题？换句话说，我只想将当前header向下移动并将其作为另一条记录添加到数据框中。*次要问题:如何将表(示例数据框)添加到stackoverflow问题？我有这个(注意标题以及它是如何作为一行添加的:0.2132310.3145440-0.952928-0.6246461-1.020950-0.883333我需要这个(所有其他记录都向下移动并添加一个新记录)(另外:我无法正确读取csv，因为我正在使用s3_text_adapter进行导入，而且我无法弄清楚如何使用类似于pandasread_csv的忽略header的参数):AB00.213231

Dataframe python code section pre pandas

python - 如何在 Pandas 中将 argmin 与 groupby 一起使用

假设我有一个像这样的pandas数据框:catval0a11a62a123b24b55b116c47c22而且我想知道，对于每个类别('cat'的每个值)，值最接近给定值的位置是什么，比如5.5。我可以减去我的目标值并取绝对值，给我这样的东西:catvalval_delt0a14.51a60.52a126.53b23.54b50.55b115.56c41.57c2216.5但我不知道下一步该去哪里。我的第一个想法是将argmin()与groupby()结合使用，但这会产生错误:In[375]:df.groupby('cat').val_delt.argmin()------------

何在 groupby section code pre python pandas

python - Pandas DataFrame 列连接

我有一个包含100万行和5列的pandasDataframey。np.shape(y)(1037889,5)列值都是0或1。看起来像这样:y.head()a,b,c,d,e0,0,1,0,01,0,0,1,10,1,1,1,10,0,0,0,0我想要一个包含100万行和1列的Dataframe。np.shape(y)(1037889,)其中列只是连接在一起的5列。Newcolumn0,0,1,0,01,0,0,1,10,1,1,1,10,0,0,0,0我一直在尝试不同的东西，比如merge、concat、dstack等等...但似乎无法弄清楚。最佳答案

DataFrame python code section pre numpy merge pandas concatenation

python - Pandas 比 numpy 慢得多？

下面的代码表明pandas可能比numpy慢得多，至少在函数clip()的特定情况下是这样。令人惊讶的是，从pandas到numpy再回到pandas的往返，同时在numpy中执行计算，仍然比在pandas中快得多。pandas的功能不应该用这种迂回的方式实现吗？In[49]:arr=np.random.randn(1000,1000)In[50]:df=pd.DataFrame(arr)In[51]:%timeitnp.clip(arr,0,None)100loops,bestof3:8.18msperloopIn[52]:%timeitdf.clip_lower(0)1loops,

python Pandas section timeit numpy

python - Pandas:打印一系列的名称和值

当我使用时:w=y.groupby['A'].size()它给了我列A的列值，然后是它旁边的分组的大小。使用w(aSeries)，如何分别打印分组的名称？可以通过以下方式获取分组的值:foriinw:print(i)但我不知道如何获取这些名称。最佳答案您可以使用iteritems()迭代系列In[100]:forindex,valinw.iteritems():.....:printindex,val.....:其中，index有列名，val值/大小关于python-Pandas:

python Pandas code section pre database python-3.x

python - 如何在 Pandas 中合并 "(df1 & not df2)"数据帧？

我有2个pandas数据帧df1和df2，它们具有公共(public)列/键(x,y)。我想合并对键(x，y)进行“(df1＆notdf2)”类型的合并，这意味着我希望我的代码返回一个数据框，其中包含仅在df1而不是(x，y)中的行在df2中。SAS具有等效的功能datafinal;mergedf1(in=a)df2(in=b);byxy;ifa¬b;run;谁能优雅地在pandas中复制相同的功能？如果我们能在merge()中指定how="left-right"就好了。最佳答案我刚刚升级到10天前发布的0.17.0RC1

amp 何在 section merge df python join pandas dataframe

python - 使用包含空格的列名查询 Pandas DataFrame 或使用包含空格的列名的 drop 方法

我希望使用pandas根据列名(包含空格)和单元格值删除行。我已经尝试了多种方法来实现这一点(删除和查询方法)，但由于名称中的空格，我似乎失败了。有没有办法使用其中有空格的名称查询数据，或者我是否需要先清理所有空格？csv文件形式的数据Date,"price","SaleItem"2012-06-11,1600.20,item12012-06-12,1610.02,item22012-06-13,1618.07,item32012-06-14,1624.40,item42012-06-15,1626.15,item52012-06-16,1626.15,item62012-06-17,

列名 DataFrame 39 Item python pandas

python Pandas 数据框: removing selected rows

我有一个pandas数据框，类似于:df=pd.read_csv('fruit.csv')print(df)fruitnamequant0apple101apple112apple133banana104banana205banana306banana407pear108pear1029pear103310pear101211pear10112pear10013pear104414orange10我想删除最后一个条目PERFRUIT，如果该水果的条目数为奇数(不偶数)(%2==1)。无需遍历数据帧。所以上面的最终结果是:--移除最后一个苹果，因为苹果出现了3次--删除最后一个梨--删除

removing selected code fruitname pandas python

python - Pandas usecols 除了最后一个

我有一个csv文件，是否可以让usecols在使用read_csv时获取除最后一列之外的所有列，而不列出所需的每一列。例如，如果我有一个13列的文件，我可以执行usecols=[0,1,...,10,11]。执行usecols=[:-1]会给我语法错误吗？还有其他选择吗？我正在使用pandas0.17 最佳答案从版本0.20开始，pandas中的usecols方法接受一个可调用的过滤器，即lambda表达式。因此，如果您知道要跳过的列的名称，则可以执行以下操作:columns_to_skip=['foo','bar']df=pd.

usecols python code section pandas

54 55 565758 59 60