草庐IT

Dataframe

全部标签

python - 每 X 行对 Pandas 数据框进行分类

我有一个简单的数据框,我想每3行装箱一次。看起来像这样:col10211233140我想把它变成这样:col10210.5我已经发布了类似的问题here但我不知道如何将解决方案移植到我当前的用例中。你能帮帮我吗?非常感谢! 最佳答案 在Python2中使用:>>>df.groupby(df.index/3).mean()col102.010.5 关于python-每X行对Pandas数据框进行分类,我们在StackOverflow上找到一个类似的问题: htt

python - 每 X 行对 Pandas 数据框进行分类

我有一个简单的数据框,我想每3行装箱一次。看起来像这样:col10211233140我想把它变成这样:col10210.5我已经发布了类似的问题here但我不知道如何将解决方案移植到我当前的用例中。你能帮帮我吗?非常感谢! 最佳答案 在Python2中使用:>>>df.groupby(df.index/3).mean()col102.010.5 关于python-每X行对Pandas数据框进行分类,我们在StackOverflow上找到一个类似的问题: htt

python - 如何将多个列值连接到 Pandas 数据框中的单个列

这个问题与thisposted相同更早。我想连接三列而不是连接两列:这里是合并两列:df=DataFrame({'foo':['a','b','c'],'bar':[1,2,3],'new':['apple','banana','pear']})df['combined']=df.apply(lambdax:'%s_%s'%(x['foo'],x['bar']),axis=1)dfbarfoonewcombined01aapplea_112bbananab_223cpearc_3我想用这个命令组合三列,但它不起作用,知道吗?df['combined']=df.apply(lambdax

python - 如何将多个列值连接到 Pandas 数据框中的单个列

这个问题与thisposted相同更早。我想连接三列而不是连接两列:这里是合并两列:df=DataFrame({'foo':['a','b','c'],'bar':[1,2,3],'new':['apple','banana','pear']})df['combined']=df.apply(lambdax:'%s_%s'%(x['foo'],x['bar']),axis=1)dfbarfoonewcombined01aapplea_112bbananab_223cpearc_3我想用这个命令组合三列,但它不起作用,知道吗?df['combined']=df.apply(lambdax

python - 在 Pandas DataFrame 子集(副本)上设置值很慢

importtimeitimportpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.rand(10,10))dft=df[[True,False]*5]#df=dftdft2=dft.copy()new_data=np.random.rand(5,10)print(timeit.timeit('dft.loc[:,:]=new_data',setup='from__main__importdft,new_data',number=100))print(timeit.timeit('dft2.loc[:,:]=new_data',se

python - 在 Pandas DataFrame 子集(副本)上设置值很慢

importtimeitimportpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.rand(10,10))dft=df[[True,False]*5]#df=dftdft2=dft.copy()new_data=np.random.rand(5,10)print(timeit.timeit('dft.loc[:,:]=new_data',setup='from__main__importdft,new_data',number=100))print(timeit.timeit('dft2.loc[:,:]=new_data',se

python - 在 python 中读取 15 M 行 csv 文件的有效方法

对于我的应用程序,我需要读取多个文件,每个文件有15M行,将它们存储在DataFrame中,并将DataFrame保存为HDFS5格式。我已经尝试过不同的方法,特别是具有chunksize和dtype规范的pandas.read_csv,以及dask.dataframe。他们都需要大约90秒来处理1个文件,所以我想知道是否有一种方法可以按照描述的方式有效地处理这些文件。在下文中,我展示了一些我已经完成的测试的代码。importpandasaspdimportdask.dataframeasddimportnumpyasnpimportre#Firstapproachstore=pd.H

python - 在 python 中读取 15 M 行 csv 文件的有效方法

对于我的应用程序,我需要读取多个文件,每个文件有15M行,将它们存储在DataFrame中,并将DataFrame保存为HDFS5格式。我已经尝试过不同的方法,特别是具有chunksize和dtype规范的pandas.read_csv,以及dask.dataframe。他们都需要大约90秒来处理1个文件,所以我想知道是否有一种方法可以按照描述的方式有效地处理这些文件。在下文中,我展示了一些我已经完成的测试的代码。importpandasaspdimportdask.dataframeasddimportnumpyasnpimportre#Firstapproachstore=pd.H

python - Pandas 数据框编码

如果我有一个现有的pandas数据框,有没有办法生成python代码,当在另一个python脚本中执行时,该代码将重现该数据框。例如In[1]:dfOut[1]:incomeuser040000Bob150000Jane242000AliceIn[2]:someFunToWriteDfCode(df)Out[2]:df=pd.DataFrame({'user':['Bob','Jane','Alice'],...:'income':[40000,50000,42000]}) 最佳答案 您可以尝试在DataFrame上使用to_dic

python - Pandas 数据框编码

如果我有一个现有的pandas数据框,有没有办法生成python代码,当在另一个python脚本中执行时,该代码将重现该数据框。例如In[1]:dfOut[1]:incomeuser040000Bob150000Jane242000AliceIn[2]:someFunToWriteDfCode(df)Out[2]:df=pd.DataFrame({'user':['Bob','Jane','Alice'],...:'income':[40000,50000,42000]}) 最佳答案 您可以尝试在DataFrame上使用to_dic