草庐IT

dataframe

全部标签

python - 如何将多个列值连接到 Pandas 数据框中的单个列

这个问题与thisposted相同更早。我想连接三列而不是连接两列:这里是合并两列:df=DataFrame({'foo':['a','b','c'],'bar':[1,2,3],'new':['apple','banana','pear']})df['combined']=df.apply(lambdax:'%s_%s'%(x['foo'],x['bar']),axis=1)dfbarfoonewcombined01aapplea_112bbananab_223cpearc_3我想用这个命令组合三列,但它不起作用,知道吗?df['combined']=df.apply(lambdax

python - 如何将多个列值连接到 Pandas 数据框中的单个列

这个问题与thisposted相同更早。我想连接三列而不是连接两列:这里是合并两列:df=DataFrame({'foo':['a','b','c'],'bar':[1,2,3],'new':['apple','banana','pear']})df['combined']=df.apply(lambdax:'%s_%s'%(x['foo'],x['bar']),axis=1)dfbarfoonewcombined01aapplea_112bbananab_223cpearc_3我想用这个命令组合三列,但它不起作用,知道吗?df['combined']=df.apply(lambdax

python - 在 Pandas DataFrame 子集(副本)上设置值很慢

importtimeitimportpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.rand(10,10))dft=df[[True,False]*5]#df=dftdft2=dft.copy()new_data=np.random.rand(5,10)print(timeit.timeit('dft.loc[:,:]=new_data',setup='from__main__importdft,new_data',number=100))print(timeit.timeit('dft2.loc[:,:]=new_data',se

python - 在 Pandas DataFrame 子集(副本)上设置值很慢

importtimeitimportpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.rand(10,10))dft=df[[True,False]*5]#df=dftdft2=dft.copy()new_data=np.random.rand(5,10)print(timeit.timeit('dft.loc[:,:]=new_data',setup='from__main__importdft,new_data',number=100))print(timeit.timeit('dft2.loc[:,:]=new_data',se

python - 在 python 中读取 15 M 行 csv 文件的有效方法

对于我的应用程序,我需要读取多个文件,每个文件有15M行,将它们存储在DataFrame中,并将DataFrame保存为HDFS5格式。我已经尝试过不同的方法,特别是具有chunksize和dtype规范的pandas.read_csv,以及dask.dataframe。他们都需要大约90秒来处理1个文件,所以我想知道是否有一种方法可以按照描述的方式有效地处理这些文件。在下文中,我展示了一些我已经完成的测试的代码。importpandasaspdimportdask.dataframeasddimportnumpyasnpimportre#Firstapproachstore=pd.H

python - 在 python 中读取 15 M 行 csv 文件的有效方法

对于我的应用程序,我需要读取多个文件,每个文件有15M行,将它们存储在DataFrame中,并将DataFrame保存为HDFS5格式。我已经尝试过不同的方法,特别是具有chunksize和dtype规范的pandas.read_csv,以及dask.dataframe。他们都需要大约90秒来处理1个文件,所以我想知道是否有一种方法可以按照描述的方式有效地处理这些文件。在下文中,我展示了一些我已经完成的测试的代码。importpandasaspdimportdask.dataframeasddimportnumpyasnpimportre#Firstapproachstore=pd.H

python - Pandas 数据框编码

如果我有一个现有的pandas数据框,有没有办法生成python代码,当在另一个python脚本中执行时,该代码将重现该数据框。例如In[1]:dfOut[1]:incomeuser040000Bob150000Jane242000AliceIn[2]:someFunToWriteDfCode(df)Out[2]:df=pd.DataFrame({'user':['Bob','Jane','Alice'],...:'income':[40000,50000,42000]}) 最佳答案 您可以尝试在DataFrame上使用to_dic

python - Pandas 数据框编码

如果我有一个现有的pandas数据框,有没有办法生成python代码,当在另一个python脚本中执行时,该代码将重现该数据框。例如In[1]:dfOut[1]:incomeuser040000Bob150000Jane242000AliceIn[2]:someFunToWriteDfCode(df)Out[2]:df=pd.DataFrame({'user':['Bob','Jane','Alice'],...:'income':[40000,50000,42000]}) 最佳答案 您可以尝试在DataFrame上使用to_dic

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做? 最佳答案 这里有一个优化的方式来解析带有re的文件,首先获取ID,然后解析数据元组。

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做? 最佳答案 这里有一个优化的方式来解析带有re的文件,首先获取ID,然后解析数据元组。