pyhton_Pandas

python - 使用 Pandas DataFrame.sort() 时，我可以让它真正对行重新编号吗？

我总是对此感到惊讶:>data=DataFrame({'x':[1,2],'y':[2,1]})>data=data.sort('y')>dataxy121012>data['x'][0]1有没有办法让索引重新分配以适应新的排序？最佳答案就我而言，我很高兴排序不会丢弃索引信息。如果是这样，那么首先有一个索引而不是另一个列就没有多大意义了。如果您想将索引重置为一个范围，您可以:>>>dataxy121012>>>data.reset_index(drop=True)xy021112您可以根据需要重新分配或使用inplace=Tru

python - 使用 XlsxWriter 在 pandas 中导出到 'xlsx' 时应用样式

我使用pandas的.to_excel方法将DataFrame编写为Excel工作簿。当索引单元格合并时，这甚至对于多索引DataFrame也很有效。使用纯XlsxWriter时，我可以将格式应用于单元格，这也很好用。但是我找不到用pandas方法做同样事情的方法。只传递带有列名和样式的字典是最直观的。有什么办法吗？最佳答案 Isthereanywaytodoso目前没有。没有像Pandas那样的格式化机制来格式化Excel输出(除了一些硬编码格式)。但是，即使是XlsxWriter目前也不支持在添加数据后格式化单元格。它在TOD

中导 XlsxWriter section pandas python io xlsx

javascript - 如何有效地从 Pandas 数据框转移到 JSON

我已经开始使用pandas按日期进行一些聚合。我的目标是计算在特定日期发生的所有测量实例，然后在D3中表示它。为了说明我的工作流程，我有一个如下所示的查询集(来自Django):queryset=[{'created':"05-16-13",'counter':1,'id':13},{'created':"05-16-13",'counter':1,'id':34},{'created':"05-17-13",'counter':1,'id':12},{'created':"05-16-13",'counter':1,'id':7},{'created':"05-18-13",'cou

javascript Pandas code 34 counter python json d3.js

python - 如何将自定义函数应用于每一行的 Pandas 数据框

这个问题在这里已经有了答案:HowtoapplyafunctiontotwocolumnsofPandasdataframe(15个答案)关闭去年。我想应用一个自定义函数并创建一个名为population2050的派生列，该列基于我的数据框中已有的两列。importpandasaspdimportsqlite3conn=sqlite3.connect('factbook.db')query="select*fromfactswherearea_land=0;"facts=pd.read_sql_query(query,conn)print(list(facts.columns.valu

自定 python section facts notice pandas

python - 如何在 Pandas 中复制行？

我的pandas数据框如下所示:PersonIDZipCodeGender01234588238182Female13291727188172Male21827355290291Female我想将每一行复制3次，例如:PersonIDZipCodeGender01234588238182Female01234588238182Female01234588238182Female13291727188172Male13291727188172Male13291727188172Male21827355290291Female21827355290291Female218273552902

何在 python code Female pre pandas dataframe repeat

python - 将日期转换为 float 以对 Pandas 数据框进行线性回归

似乎要使OLS线性回归在Pandas中运行良好，参数必须是float。我从以下形式的csv(称为“gameAct.csv”)开始:date,city,players,sales2014-04-28,London,111,1091.282014-04-29,London,100,1100.442014-04-28,Paris,87,1001.33...我想对销售额如何依赖于日期执行线性回归(随着时间的推移，销售额如何变化？)。我下面的代码的问题似乎是日期不是浮点值。如果能帮助我解决Pandas中的这个索引问题，我将不胜感激。我当前的(非工作，但编译代码):importpandasaspd

python Pandas 39 code section time-series

python - 根据列值重复 pandas DataFrame 中的行

我有以下df:code.role.persons123.Janitor.3123.Analyst.2321.Vallet.2321.Auditor.5第一行表示我有3个人扮演看门人的角色。我的问题是我需要为每个人安排一行。我的df应该是这样的:df:code.role.persons123.Janitor.3123.Janitor.3123.Janitor.3123.Analyst.2123.Analyst.2321.Vallet.2321.Vallet.2321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5

DataFrame python Auditor code 321 pandas repeat

python - Pandas :这里的内存泄漏在哪里？

我在python中使用pandas库时遇到内存泄漏问题。我在我的类中创建了pandas.dataframe对象，并且我有方法可以根据我的条件更改数据帧的大小。更改数据框大小并创建新的pandas对象后，我在类里面重写了原始的pandas.dataframe。但是即使在显着减少初始表之后，内存使用率也非常高。一些简短示例的代码(我没有编写进程管理器，请参阅任务管理器):importtime,string,pandas,numpy,gcclasstemp_class():def__init__(self,nrow=1000000,ncol=4,timetest=5):self.nrow=n

python Pandas 122.59375 59375 self

python - Pandas 数据框 : Remove secondary upcoming same value

我有一个数据框:col1col2a0b1c1d0c1d0在'col2'上，我只想保留顶部的第一个1并将第一个下面的每个1替换为0，输出为:col1col2a0b1c0d0c0d0非常感谢。最佳答案你可以找到第一个1的索引，并将其他设置为0:mask=df['col2'].eq(1)df.loc[mask&(df.index!=mask.idxmax()),'col2']=0要获得更好的性能，请参阅Efficientlyreturntheindexofthefirstvaluesatisfyingconditioninarray.

secondary upcoming code section stackoverflow python pandas dataframe

python - Pandas 数据框将 INT64 列转换为 boolean 值

数据帧df中的某些列df.column存储为int64数据类型。取值全为1或0。有没有办法用boolean值替换这些值？最佳答案 df['column_name']=df['column_name'].astype('bool')例如:importpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.random_integers(0,1,size=5),columns=['foo'])print(df)#foo#00#11#20#31#41df['foo']=df['foo'].a

boolean python code column section pandas dataframe numpy

99 100 101102103 104 105