Dataframe

python - DataFrame.drop_duplicates 和 DataFrame.drop 不删除行

我已将csv读入pandas数据框，它有五列。某些行仅在第二列中具有重复值，我想从数据框中删除这些行，但drop和drop_duplicates都不起作用。这是我的实现:#ReadCSVdf=pd.read_csv(data_path,header=0,names=['a','b','c','d','e'])printSeries(df.b)dropRows=[]#Sanitizethedatatogetridofduplicatesforindx,valinenumerate(df.b):#forallthevaluesif(indx==0):#skipfirstindxcontin

python - 用两列的 groupby 的第一行构建新列 - Pandas

我正在尝试构建一个新列，如果它是列“type”的元素第一次具有列“xx”的特定值，则该列的值为1，并在中给出0的值任何其他情况。我正在使用的原始数据框(df)是:idx=[np.array(['Jan-18','Jan-18','Feb-18','Mar-18','Mar-18','Mar-18','Apr-18','Apr-18','May-18','Jun-18','Jun-18','Jun-18','Jul-18','Aug-18','Aug-18','Sep-18','Sep-18','Oct-18','Oct-18','Oct-18','Nov-18','Dec-18','D

groupby python 39 2018 1000 pandas dataframe

python - 在 Panda Dataframe 中附加 bool 列

我正在学习pandas，但在这里遇到了这个问题。我创建了一个数据框来跟踪所有用户以及他们做某事的次数。为了更好地理解问题，我创建了这个示例:importpandasaspddata=[{'username':'me','bought_apples':2,'bought_pears':0},{'username':'you','bought_apples':1,'bought_pears':1}]df=pd.DataFrame(data)df['bought_something']=df['bought_apples']>0ordf['bought_pears']>0在最后一行中，我想添

Dataframe python bought 39 code pandas ipython-notebook

python - pandas.Series() 使用 DataFrame 列创建返回 NaN 数据条目

我正在尝试使用简化后的代码将数据帧转换为系列:dates=['2016-1-{}'.format(i)foriinrange(1,21)]values=[iforiinrange(20)]data={'Date':dates,'Value':values}df=pd.DataFrame(data)df['Date']=pd.to_datetime(df['Date'])ts=pd.Series(df['Value'],index=df['Date'])print(ts)然而，打印输出看起来像这样:Date2016-01-01NaN2016-01-02NaN2016-01-03NaN20

条目 DataFrame 2016 code 01 python python-3.x pandas time-series

python - 使用 Pandas 重命名数据框列中的元素

使用Pandas:df=pd.DataFrame({'n':['d','a','b','c','c','a','d','b'],'v':[1,2,1,2,2,1,1,1]})如何重命名df.n中的元素，使a更改为x、b到y，c到w和d到z，导致:nv0z11x22y13w2... 最佳答案您可以将替换值的字典传递到系列replace中方法:In[11]:df['n'].replace({'a':'x','b':'y','c':'w','d':'z'})Out[11]:0z1x2y3w4w5x6z7yName:n,dtype:obj

命名 python 39 code section pandas dataframe rename

python - 删除 Pandas 系列中的空列表

我有一个像下面这样的长系列:series=pd.Series([[(1,2)],[(3,5)],[],[(3,5)]])In[151]:seriesOut[151]:0[(1,2)]1[(3,5)]2[]3[(3,5)]dtype:object我想删除所有带有空列表的条目。出于某种原因，bool索引不起作用。以下测试都给出相同的错误:series==[[(1,2)]]series==[(1,2)]ValueError:Arraysweredifferentlengths:4vs1这很奇怪，因为在下面的简单示例中，索引的工作方式与上面的一样:In[146]:pd.Series([1,2,

python Pandas code section series list dataframe

python - Pandas 和 Rolling_Mean with Offset(平均每日交易量计算)

当我将股票数据从Yahoo提取到数据框中时，我希望能够计算5天的平均交易量，不包括当前日期。有没有办法使用带有偏移量的滚动均值？例如，5天表示不包括当前日期并基于前5天。当我运行下面的代码时r=DataReader("BBRY","yahoo",'2015-01-01','2015-01-31')r['ADV']=pd.rolling_mean(r['Volume'],window=5)它返回5天的交易量，包括当前日期，所以当您查看下面的内容时，1/8具有1/2、1/5、1/6、1/7和1/的平均交易量8.我希望1/9是第一个返回平均交易量的日期，它包含来自1/2、1/5、1/6、1/

Rolling_Mean Rolling 10 2015 01 python pandas dataframe

Python 类型错误 : cannot convert the series to <class 'int' > when trying to do math on dataframe

我有一个看起来像这样的数据框:defaultdict(,{'XYF':TimeUSGyrXGyrYGyrZAccX\02071465700.0008329140.001351716-0.0004189798-0.65118312071866710.0019627870.001242457-0.0001859666-0.642349722072267919.520243E-050.001076498-0.0005664826-0.636041232072464740.00010930590.0016169170.0003615251-0.634287542072862440.001412

amp dataframe code 0.02 39 python pandas

python - 如何在 Python 中创建全零数据框

我想在Python中创建一个包含24列(表示24小时)的数据框，如下所示:columnname0123...24row100000row200000row300000我想知道如何初始化它？将来我可能会添加第4行，全“0”，怎么做？谢谢，最佳答案这里有一个技巧:当DataFrame(或Series)构造函数被传递一个标量作为第一个参数时，这个值被传播:In[11]:pd.DataFrame(0,index=np.arange(1,4),columns=np.arange(24))Out[11]:0123456789...14151

中创零数 section code python pandas dataframe

python - 通过放大设置 DataFrame 值

我有两个DataFrames(带有DatetimeIndex)，我想用第二帧(较新的)的数据更新第一帧(较旧的)。对于旧框架中已包含的行，新框架可能包含更新的数据。在这种情况下，旧帧中的数据应该被新帧中的数据覆盖。此外，较新的框架可能比第一个框架具有更多的列/行。在这种情况下，旧框架应该被新框架中的数据放大。Pandasdocs状态，那个“.loc/.ix/[]操作可以在为该轴设置不存在的键时执行放大”和“DataFrame可以通过.loc在任一轴上放大”但是这似乎不起作用并抛出一个KeyError。示例:In[195]:df1Out[195]:ABC2015-07-0912:00:0

DataFrame python 2015 00 39 pandas

29 30 313233 34 35