草庐IT

pyhton_Pandas

全部标签

python - 用 pandas 在 excel 中给单元格着色

我需要一些帮助。所以我有这样的东西importpandasaspdpath='/Users/arronteb/Desktop/excel/ejemplo.xlsx'xlsx=pd.ExcelFile(path)df=pd.read_excel(xlsx,'Sheet1')df['is_duplicated']=df.duplicated('#CSR')df_nodup=df.loc[df['is_duplicated']==False]df_nodup.to_excel('ejemplo.xlsx',encoding='utf-8')所以基本上这个程序将ejemplo.xlsx(eje

python - Pandas ,通过列值的单调增加来拆分数据框

我有一个巨大的数据框,其中包含一个名为time的日期时间类型列和另一个名为dist的浮点型列,数据框已根据时间和dist进行排序。我想根据dist的单调递增将数据帧分成几个数据帧。拆分dtdist02016081111:101.012016081111:151.422016081112:151.832016081112:320.642016081112:340.852016081114:380.2进入dtdist02016081111:101.012016081111:151.422016081112:151.8dtdist02016081112:320.612016081112:34

python - pandas 将文本特征转换为数值

我可以通过使用df.astype()方法转换为“类别”来转换pandas数据框中的所有文本特征,如下所示。但是我发现类别很难处理(例如用于绘制数据)并且更愿意创建一个新的整数列#convertallobjectstocategoriesobject_types=dataset.select_dtypes(include=['O'])forcolinobject_types:dataset['{0}_category'.format(col)]=dataset[col].astype('category')我可以使用这个hack将文本转换为整数:#convertallobjectstoi

python - Pandas - 'Series' 对象没有属性

我需要使用lambda函数逐行计算。例如创建一些数据框importpandasaspdimportnumpyasnpdefmyfunc(x,y):returnx+ycolNames=['A','B']data=np.array([np.arange(10)]*2).Tdf=pd.DataFrame(data,index=range(0,10),columns=colNames)使用'myfunc'这确实有效df['D']=(df.apply(lambdax:myfunc(x.A,x.B),axis=1))但是第二种情况不起作用!df['D']=(df.apply(lambdax:myf

python - 如何获取 Pandas 数据框中一行的百分位数?

ExampleDataFrameValues-078138242348431589694710281229122stats.percentileofscore(temp['INCOME'].values,38,kind='mean')15.0stats.percentileofscore(temp['INCOME'].values,38,kind='strict')10.0stats.percentileofscore(temp['INCOME'].values,38,kind='weak')20.0stats.percentileofscore(temp['INCOME'].valu

python - 列 : getting value_counts as columns in pandas 的多级索引

在一般意义上,我要解决的问题是将多级索引的一个组件更改为列。也就是说,我有一个包含多级索引的Series,我希望索引的最低级别更改为dataframe中的列。这是我试图解决的实际示例问题,这里我们可以生成一些示例数据:foo_choices=["saul","walter","jessee"]bar_choices=["alpha","beta","foxtrot","gamma","hotel","yankee"]df=DataFrame([{"foo":random.choice(foo_choices),"bar":random.choice(bar_choices)}for_i

python - pandas - 数据框中出现的唯一行数

如何计算DataFrame中每个唯一行的出现次数?data={'x1':['A','B','A','A','B','A','A','A'],'x2':[1,3,2,2,3,1,2,3]}df=pd.DataFrame(data)dfx1x20A11B32A23A24B35A16A27A3我想得到x1x2count0A121A232A313B32 最佳答案 IIUC您可以将参数as_index=False作为参数传递给groupby:In[100]:df.groupby(['x1','x2'],as_index=False).coun

python - 从 pandas 转换为 numpy 时如何保留列名

根据tothispost,我应该能够访问ndarray中列的名称作为a.dtype.names但是,如果我使用df.as_matrix()或df.values将pandasDataFrame转换为ndarray,则dtype.names字段为None。此外,如果我尝试将列名分配给ndarrayX=pd.DataFrame(dict(age=[40.,50.,60.],sys_blood_pressure=[140.,150.,160.]))printXprinttype(X.as_matrix())#printtype(X.as_matrix()[0])#m=X.as_matrix()

python - Pandas 加入具有不同名称的列

这个问题在这里已经有了答案:PandasMerging101(8个答案)关闭3年前。我有两个不同的数据框,我想对其执行一些sql操作。不幸的是,就像我正在处理的数据一样,拼写通常不同。请参阅下面的示例,其中我认为语法看起来像用户ID属于df1,用户名属于df2。有人帮帮我吗?#notworking-Iassumesomesyntaxissue?pd.merge(df1,df2,on=[['userid'=='username','column1']],how='left')

python - pandas groupby 计数、总和和平均值

我在Pandas中有以下DF:+---------+--------+--------------------+|keyword|weight|otherkeywords|+---------+--------+--------------------+|dog|0.12|[cat,horse,pig]||cat|0.5|[dog,pig,camel]||horse|0.07|[dog,camel,cat]||dog|0.1|[cat,horse]||dog|0.2|[cat,horse,pig]||horse|0.3|[camel]|+---------+--------+-----