草庐IT

sample_dataframe

全部标签

python - 比较 Pandas Dataframe 行和删除具有重叠日期的行

我有一个数据框,其中包含从交易策略中获取的交易。交易策略中的逻辑需要更新,以确保如果策略已经在交易中则不会进行交易——但这是一个不同的问题。许多先前交易的交易数据从csv文件读入数据框。这是我的数据问题:我需要对数据帧进行逐行比较,以确定rowX的Entrydate是否小于ExitDaterowX-1。我的数据样本:Row1:EntryDateExitDate2012-07-252012-07-27Row2:EntryDateExitDate2012-07-262012-07-29第2行需要删除,因为这是不应该发生的交易。我无法确定哪些行是重复的,然后删除它们。我尝试了approach

python - Pandas Dataframe 添加标题而不替换当前标题

如何在不替换当前标题的情况下向DF添加标题?换句话说,我只想将当前header向下移动并将其作为另一条记录添加到数据框中。*次要问题:如何将表(示例数据框)添加到stackoverflow问题?我有这个(注意标题以及它是如何作为一行添加的:0.2132310.3145440-0.952928-0.6246461-1.020950-0.883333我需要这个(所有其他记录都向下移动并添加一个新记录)(另外:我无法正确读取csv,因为我正在使用s3_text_adapter进行导入,而且我无法弄清楚如何使用类似于pandasread_csv的忽略header的参数):AB00.213231

python - Pandas DataFrame 列连接

我有一个包含100万行和5列的pandasDataframey。np.shape(y)(1037889,5)列值都是0或1。看起来像这样:y.head()a,b,c,d,e0,0,1,0,01,0,0,1,10,1,1,1,10,0,0,0,0我想要一个包含100万行和1列的Dataframe。np.shape(y)(1037889,)其中列只是连接在一起的5列。Newcolumn0,0,1,0,01,0,0,1,10,1,1,1,10,0,0,0,0我一直在尝试不同的东西,比如merge、concat、dstack等等...但似乎无法弄清楚。 最佳答案

python - 值错误 : DataFrame index must be unique for orient ='columns'

我将许多数据框合并成一个更大的数据框,pd.concat(dfs,axis=0)然后我可以不将它转储到json(Pdb)df.to_json()***ValueError:DataFrameindexmustbeuniquefororient='columns'.我该如何解决? 最佳答案 该错误表明您的数据帧索引具有非唯一(重复)值。由于您似乎没有使用索引,因此您可以创建一个新索引:df.reset_index(inplace=True)或df.reset_index(drop=True,inplace=True)如果你想删除之前的

python - 使用包含空格的列名查询 Pandas DataFrame 或使用包含空格的列名的 drop 方法

我希望使用pandas根据列名(包含空格)和单元格值删除行。我已经尝试了多种方法来实现这一点(删除和查询方法),但由于名称中的空格,我似乎失败了。有没有办法使用其中有空格的名称查询数据,或者我是否需要先清理所有空格?csv文件形式的数据Date,"price","SaleItem"2012-06-11,1600.20,item12012-06-12,1610.02,item22012-06-13,1618.07,item32012-06-14,1624.40,item42012-06-15,1626.15,item52012-06-16,1626.15,item62012-06-17,

python - Pandas DataFrame 排序忽略大小写

我有一个用Python编写的Pandas数据框。dataframe的内容来自here.我稍微修改了“单个”列中第一个字母的大小写。这是我所拥有的:importpandasaspddf=pd.read_csv('test.csv')printdfPositionArtistSingleYearWeeks1FrankieLaineIBelieve195318weeks2BryanAdamsIDoItforYou199116weeks3WetWetWetloveIsAllAround199415weeks4Drake(feat.Wizkid&Kyla)OneDance201615weeks5

python - 在不添加新日期的情况下重新采样日内 pandas DataFrame

我想在不添加新日期的情况下对一些日内数据进行下采样df.resample('30Min')会增加周末等,这是不受欢迎的。有什么办法吗? 最佳答案 组合的groupby/resample可能有效:In[22]:dates=pd.date_range('01-Jan-2014','11-Jan-2014',freq='T')[0:-1]...:dates=dates[dates.dayofweek 关于python-在不添加新日期的情况下重新采样日内pandasDataFrame,我们在St

python Pandas : Getting the locations of a value in dataframe

假设我有以下数据框:'a''b'000110201301有没有办法获取存在特定值的索引/列值?例如,类似于以下内容:values=df.search(1)将有values=[(1,'a'),(2,'b'),(3,'b')]。 最佳答案 df[df==1].stack().index.tolist()产量[(1,'a'),(2,'b'),(3,'b')] 关于pythonPandas:Gettingthelocationsofavalueindataframe,我们在StackOverfl

python - 在 Pandas Dataframe 中删除具有低标准偏差的列

有没有办法不用写for循环就可以做到这一点?假设我们有以下数据:d={'A':{-1:0.19052041339798062,0:-0.0052531481871952871,1:-0.0022017467720961644,2:-0.051109629013311737,3:0.18569441222621336},'B':{-1:0.029181417300734112,0:-0.0031021862533310743,1:-0.014358516787430284,2:0.0046386615308068877,3:0.056676322314857898},'C':{-1:0.

python - DataFrame.drop_duplicates 和 DataFrame.drop 不删除行

我已将csv读入pandas数据框,它有五列。某些行仅在第二列中具有重复值,我想从数据框中删除这些行,但drop和drop_duplicates都不起作用。这是我的实现:#ReadCSVdf=pd.read_csv(data_path,header=0,names=['a','b','c','d','e'])printSeries(df.b)dropRows=[]#Sanitizethedatatogetridofduplicatesforindx,valinenumerate(df.b):#forallthevaluesif(indx==0):#skipfirstindxcontin