草庐IT

pandas-explode

全部标签

python - 如何在 Pandas 中复制行?

我的pandas数据框如下所示:PersonIDZipCodeGender01234588238182Female13291727188172Male21827355290291Female我想将每一行复制3次,例如:PersonIDZipCodeGender01234588238182Female01234588238182Female01234588238182Female13291727188172Male13291727188172Male13291727188172Male21827355290291Female21827355290291Female218273552902

python - 将日期转换为 float 以对 Pandas 数据框进行线性回归

似乎要使OLS线性回归在Pandas中运行良好,参数必须是float。我从以下形式的csv(称为“gameAct.csv”)开始:date,city,players,sales2014-04-28,London,111,1091.282014-04-29,London,100,1100.442014-04-28,Paris,87,1001.33...我想对销售额如何依赖于日期执行线性回归(随着时间的推移,销售额如何变化?)。我下面的代码的问题似乎是日期不是浮点值。如果能帮助我解决Pandas中的这个索引问题,我将不胜感激。我当前的(非工作,但编译代码):importpandasaspd

python - 根据列值重复 pandas DataFrame 中的行

我有以下df:code.role.persons123.Janitor.3123.Analyst.2321.Vallet.2321.Auditor.5第一行表示我有3个人扮演看门人的角色。我的问题是我需要为每个人安排一行。我的df应该是这样的:df:code.role.persons123.Janitor.3123.Janitor.3123.Janitor.3123.Analyst.2123.Analyst.2321.Vallet.2321.Vallet.2321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5321.Auditor.5

python - Pandas :这里的内存泄漏在哪里?

我在python中使用pandas库时遇到内存泄漏问题。我在我的类中创建了pandas.dataframe对象,并且我有方法可以根据我的条件更改数据帧的大小。更改数据框大小并创建新的pandas对象后,我在类里面重写了原始的pandas.dataframe。但是即使在显着减少初始表之后,内存使用率也非常高。一些简短示例的代码(我没有编写进程管理器,请参阅任务管理器):importtime,string,pandas,numpy,gcclasstemp_class():def__init__(self,nrow=1000000,ncol=4,timetest=5):self.nrow=n

python - Pandas 数据框 : Remove secondary upcoming same value

我有一个数据框:col1col2a0b1c1d0c1d0在'col2'上,我只想保留顶部的第一个1并将第一个下面的每个1替换为0,输出为:col1col2a0b1c0d0c0d0非常感谢。 最佳答案 你可以找到第一个1的索引,并将其他设置为0:mask=df['col2'].eq(1)df.loc[mask&(df.index!=mask.idxmax()),'col2']=0要获得更好的性能,请参阅Efficientlyreturntheindexofthefirstvaluesatisfyingconditioninarray.

python - Pandas 数据框将 INT64 列转换为 boolean 值

数据帧df中的某些列df.column存储为int64数据类型。取值全为1或0。有没有办法用boolean值替换这些值? 最佳答案 df['column_name']=df['column_name'].astype('bool')例如:importpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.random_integers(0,1,size=5),columns=['foo'])print(df)#foo#00#11#20#31#41df['foo']=df['foo'].a

python - 在 VS Code 中漂亮地打印 pandas 数据框

我想知道是否可以在调试时(第一张图片)在VSCode中显示Pandas数据框,因为它在PyCharm中显示(第二张图片)?感谢您的帮助。df在vscode中打印:df在pycharm中打印: 最佳答案 截至January2021release在python扩展中,您现在可以在调试nativepython程序时使用内置数据查看器查看pandas数据帧。当程序在断点处暂停时,右键单击变量列表中的数据框变量并选择“在数据查看器中查看值” 关于python-在VSCode中漂亮地打印pandas

python - 从 pandas.rolling_apply 返回两个值

我正在使用pandas.rolling_apply将数据拟合到分布并从中获取值,但我还需要它报告滚动拟合优度(特别是p值)。目前我是这样做的:deffunc(sample):fit=genextreme.fit(sample)returngenextreme.isf(0.9,*fit)defp_value(sample):fit=genextreme.fit(sample)returnkstest(sample,'genextreme',fit)[1]values=pd.rolling_apply(data,30,func)p_values=pd.rolling_apply(data,

python - 将具有混合数据和类别的 pandas DataFrame 存储到 hdf5 中

我想将具有不同列的数据帧存储到一个hdf5文件中(在下面找到数据类型的摘录)。In[1]:mydfOut[1]:endTimeuint32distancefloat16signaturecategoryanchorNamecategorystationListobject在转换某些列(上面摘录中的signature和anchorName)之前,我使用了如下代码来存储它(效果很好):path='tmp4.hdf5'key='journeys'mydf.to_hdf(path,key,mode='w',complevel=9,complib='bzip2')但它不适用于类别,然后我尝试了以

python - Pandas DataFrame.unstack() 更改行和列标题的顺序

我遇到了以下对行和列标题进行排序的问题。这里是重现这个的方法:X=pd.DataFrame(dict(x=np.random.normal(size=100),y=np.random.normal(size=100)))A=pd.qcut(X['x'],[0,0.25,0.5,0.75,1.0])#createafactorB=pd.qcut(X['y'],[0,0.25,0.5,0.75,1.0])#createanotherfactorg=X.groupby([A,B])['x'].mean()#doatwo-waybucketingprintg#thisgivesthefollo