草庐IT

dataframe

全部标签

python - 获取满足条件的 Pandas DataFrame 行的整数索引?

我有以下数据框:abcb21235456如您所见,列b用作索引。我想获得满足('b'==5)的行的序号,在本例中为1。被测试的列可以是索引列(如本例中的b)或常规列,例如我可能想找到满足('c'==6).的行的索引 最佳答案 使用Index.get_loc而是。重用@unutbu的设置代码,您将获得相同的结果。>>>importpandasaspd>>>importnumpyasnp>>>df=pd.DataFrame(np.arange(1,7).reshape(2,3),columns=list('abc'),index=pd.

python - 如何从内存中删除多个 Pandas (python)数据帧以节省 RAM?

作为预处理的一部分,我创建了很多数据框。由于我的内存有限6GB,我想从RAM中删除所有不必要的数据帧,以避免在scikit-learn中运行GRIDSEARCHCV时内存不足。1)是否有仅列出当前加载到内存中的所有数据帧的功能?我尝试了dir()但它提供了许多其他对象而不是数据帧。2)我创建了一个要删除的数据框列表del_df=[Gender_dummies,capsule_trans,col,concat_df_list,coup_CAPSULE_dummies]&跑了foriindel_df:del(i)但它没有删除数据框。但是单独删除数据框如下是从内存中删除数据帧。delGend

python - 如何从内存中删除多个 Pandas (python)数据帧以节省 RAM?

作为预处理的一部分,我创建了很多数据框。由于我的内存有限6GB,我想从RAM中删除所有不必要的数据帧,以避免在scikit-learn中运行GRIDSEARCHCV时内存不足。1)是否有仅列出当前加载到内存中的所有数据帧的功能?我尝试了dir()但它提供了许多其他对象而不是数据帧。2)我创建了一个要删除的数据框列表del_df=[Gender_dummies,capsule_trans,col,concat_df_list,coup_CAPSULE_dummies]&跑了foriindel_df:del(i)但它没有删除数据框。但是单独删除数据框如下是从内存中删除数据帧。delGend

python - 具有缺失值的列子集的逐行平均值

我有一个“DataFrame”,它偶尔会出现缺失值,看起来像这样:MondayTuesdayWednesday================================================Mike42NaN12JennaNaNNaN15Jon2141我想在我的数据框中添加一个新的column,我将在其中计算每个row的所有columns的平均值.意思是,对于Mike,我需要(df['Monday']+df['Wednesday'])/2,但对于Jenna,我会简单地使用df['Wednesdayamt.']/1有谁知道解释缺失值导致的这种变化并计算平均值的最佳方法?

python - 具有缺失值的列子集的逐行平均值

我有一个“DataFrame”,它偶尔会出现缺失值,看起来像这样:MondayTuesdayWednesday================================================Mike42NaN12JennaNaNNaN15Jon2141我想在我的数据框中添加一个新的column,我将在其中计算每个row的所有columns的平均值.意思是,对于Mike,我需要(df['Monday']+df['Wednesday'])/2,但对于Jenna,我会简单地使用df['Wednesdayamt.']/1有谁知道解释缺失值导致的这种变化并计算平均值的最佳方法?

python - 如何在 pandas DataFrame 中按列设置 dtypes

我想将一些数据带入pandasDataFrame,并且我想在导入时为每一列分配dtypes。我希望能够为具有许多不同列的较大数据集执行此操作,但是,例如:myarray=np.random.randint(0,5,size=(2,2))mydf=pd.DataFrame(myarray,columns=['a','b'],dtype=[float,int])mydf.dtypes结果:TypeError:datatypenotunderstood我尝试了其他一些方法,例如:mydf=pd.DataFrame(myarray,columns=['a','b'],dtype={'a':in

python - 如何在 pandas DataFrame 中按列设置 dtypes

我想将一些数据带入pandasDataFrame,并且我想在导入时为每一列分配dtypes。我希望能够为具有许多不同列的较大数据集执行此操作,但是,例如:myarray=np.random.randint(0,5,size=(2,2))mydf=pd.DataFrame(myarray,columns=['a','b'],dtype=[float,int])mydf.dtypes结果:TypeError:datatypenotunderstood我尝试了其他一些方法,例如:mydf=pd.DataFrame(myarray,columns=['a','b'],dtype={'a':in

python - 如何计算在 Pandas 的另一列上分组的平均值

对于以下数据框:StationIDHoursAheadBiasTempSS0279010SS0279120KEOPS00KEOPS15BB05BB15我想得到类似的东西:StationIDBiasTempSS027915KEOPS2.5BB5我知道我可以编写这样的脚本来获得所需的结果:deftransform_DF(old_df,col):list_stations=list(set(old_df['StationID'].values.tolist()))header=list(old_df.columns.values)header.remove(col)header_new=he

python - 如何计算在 Pandas 的另一列上分组的平均值

对于以下数据框:StationIDHoursAheadBiasTempSS0279010SS0279120KEOPS00KEOPS15BB05BB15我想得到类似的东西:StationIDBiasTempSS027915KEOPS2.5BB5我知道我可以编写这样的脚本来获得所需的结果:deftransform_DF(old_df,col):list_stations=list(set(old_df['StationID'].values.tolist()))header=list(old_df.columns.values)header.remove(col)header_new=he

python - 在列值和索引值上对 Pandas 数据框进行排序?

是否可以按列的值和索引对pandas数据帧进行排序?如果您按列的值对pandas数据框进行排序,则可以得到按列排序的结果数据框,但不幸的是,您会看到数据框的索引顺序在排序列的相同值内变得困惑。那么,我是否可以按列对数据框进行排序,例如名为count的列,但也可以按索引值对其进行排序?是否也可以按降序对列进行排序,而按升序对索引进行排序?我知道如何对dataframe中的多个列进行排序,也知道我可以通过首先reset_index()索引并对其进行排序,然后再次创建索引来实现我的要求。但这是不是更直观、更有效的方式呢? 最佳答案 Pan