草庐IT

python - 在 Python 中对 pandas 中的数据框进行分箱

这个问题在这里已经有了答案:Binningacolumnwithpandas(3个回答)关闭2年前.鉴于pandas中的以下数据框:importnumpyasnpdf=pandas.DataFrame({"a":np.random.random(100),"b":np.random.random(100),"id":np.arange(100)})其中id是由a和b值组成的每个点的id,我怎样才能bina和b放入一组指定的bin中(这样我就可以在每个bin中取a和b的中值/平均值)?对于df中的任何给定行,df可能具有a或b(或两者)的NaN值.这是一个使用JoeKington的解决方

python - Pandas 列绑定(bind)(cbind)两个数据框

我有一个带有id信息的数据框df_a:unique_idlacet_number155570613TLA-0138365245025490EMP-0138757364354431DXN-0025343和另一个数据框df_b,我知道与df_a中的行对应的行数相同:latitudelongitude0-93.19356031.2170291-93.94808235.3608742-103.13150837.787609我想要做的只是简单地将两者cbind并得到:unique_idlacet_numberlatitudelongitude05570613TLA-0138365-93.1935

python - Pandas 列绑定(bind)(cbind)两个数据框

我有一个带有id信息的数据框df_a:unique_idlacet_number155570613TLA-0138365245025490EMP-0138757364354431DXN-0025343和另一个数据框df_b,我知道与df_a中的行对应的行数相同:latitudelongitude0-93.19356031.2170291-93.94808235.3608742-103.13150837.787609我想要做的只是简单地将两者cbind并得到:unique_idlacet_numberlatitudelongitude05570613TLA-0138365-93.1935

python - pandas:如何使用多索引运行数据透视?

我想在pandasDataFrame上运行一个支点,索引是两列,而不是一列。例如,一个字段用于年份,一个用于月份,一个“item”字段显示“item1”和“item2”,以及一个带有数值的“value”字段。我希望索引为年+月。我设法使它工作的唯一方法是将两个字段合并为一个,然后再次将它们分开。有没有更好的办法?下面复制的最小代码。非常感谢!PS是的,我知道关键字“pivot”和“multi-index”还有其他问题,但我不明白他们是否/如何帮助我解决这个问题。importpandasaspdimportnumpyasnpdf=pd.DataFrame()month=np.arange

python - pandas:如何使用多索引运行数据透视?

我想在pandasDataFrame上运行一个支点,索引是两列,而不是一列。例如,一个字段用于年份,一个用于月份,一个“item”字段显示“item1”和“item2”,以及一个带有数值的“value”字段。我希望索引为年+月。我设法使它工作的唯一方法是将两个字段合并为一个,然后再次将它们分开。有没有更好的办法?下面复制的最小代码。非常感谢!PS是的,我知道关键字“pivot”和“multi-index”还有其他问题,但我不明白他们是否/如何帮助我解决这个问题。importpandasaspdimportnumpyasnpdf=pd.DataFrame()month=np.arange

Python使用pandas导入xlsx格式的excel文件内容

Python使用pandas导入xlsx格式的excel文件内容1.基本导入2.列标题与数据对齐3.指定导入某个sheet4.指定行索引5.指定列索引6.指定导入列7.指定导入的行数8.更多的参数1.基本导入在Python中使用pandas导入.xlsx文件的方法是read_excel()。#coding=utf-8importpandasaspddf=pd.read_excel(r'G:\test.xlsx')print(df)电脑中的文件路径默认使用\,这个时候需要在路径前面加一个r(转义符)避免路径里面的\被转义。也可以不加r,但是需要把路径里面的所有\转换成/,这个规则在导入其他格式文

python - 在 pandas 0.10.1 上使用 pandas.read_csv 指定 dtype float32

我正在尝试使用pandasread_csv方法读取一个简单的空格分隔文件。但是,Pandas似乎没有遵守我的dtype论点。也许我指定的不正确?我已将我对read_csv的有点复杂的调用提炼为这个简单的测试用例。我实际上在我的“真实”场景中使用了converters参数,但为了简单起见,我删除了它。下面是我的ipythonsession:>>>cattest.outab0.763980.813940.321360.91063>>>importpandas>>>importnumpy>>>x=pandas.read_csv('test.out',dtype={'a':numpy.floa

python - 在 pandas 0.10.1 上使用 pandas.read_csv 指定 dtype float32

我正在尝试使用pandasread_csv方法读取一个简单的空格分隔文件。但是,Pandas似乎没有遵守我的dtype论点。也许我指定的不正确?我已将我对read_csv的有点复杂的调用提炼为这个简单的测试用例。我实际上在我的“真实”场景中使用了converters参数,但为了简单起见,我删除了它。下面是我的ipythonsession:>>>cattest.outab0.763980.813940.321360.91063>>>importpandas>>>importnumpy>>>x=pandas.read_csv('test.out',dtype={'a':numpy.floa

python - 将函数应用于 Pandas 数据框的每一行以创建两个新列

我有一个pandasDataFrame,st包含多列:DatetimeIndex:53732entries,1993-01-0712:23:58to2012-12-0220:06:23Datacolumns:Date(dd-mm-yy)_Time(hh-mm-ss)53732non-nullvaluesJulian_Day53732non-nullvaluesAOT_102053716non-nullvaluesAOT_87053732non-nullvaluesAOT_67553188non-nullvaluesAOT_50051687non-nullvaluesAOT_440537

python - 将函数应用于 Pandas 数据框的每一行以创建两个新列

我有一个pandasDataFrame,st包含多列:DatetimeIndex:53732entries,1993-01-0712:23:58to2012-12-0220:06:23Datacolumns:Date(dd-mm-yy)_Time(hh-mm-ss)53732non-nullvaluesJulian_Day53732non-nullvaluesAOT_102053716non-nullvaluesAOT_87053732non-nullvaluesAOT_67553188non-nullvaluesAOT_50051687non-nullvaluesAOT_440537