草庐IT

pyhton_Pandas

全部标签

python - Pandas 映射到 TRUE/FALSE 作为字符串,而不是 bool 值

当我尝试将pandas数据框中的某些列从“0”和“1”转换为“TRUE”和“FALSE”时,pandas会自动将dtype检测为bool值。我想将dtype保留为字符串,其中包含字符串“TRUE”和“FALSE”。见下面的代码:booleanColumns=pandasDF.select_dtypes(include=[bool]).columns.values.tolist()booleanDictionary={'1':'TRUE','0':'FALSE'}pandasDF.to_string(columns=booleanColumns)forcolumninbooleanCol

python - PANDAS 从 df 删除一系列行

我想从数据框的底部删除m行。它是整数索引(有孔)。如何才能做到这一点?Pandas==0.10.1python==2.7.3 最佳答案 使用切片选择你想要的部分:df[:-m]如果你想删除一些中间行,你可以使用drop:df.drop(df.index[3:5]) 关于python-PANDAS从df删除一系列行,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/15703283/

python - 如何将 Pandas 列多索引名称作为列表获取

我有以下CSV数据:id,gene,celltype,stem,stem,stem,bcell,bcell,tcellid,gene,organs,bm,bm,fl,pt,pt,bm134,foo,about_foo,20,10,11,23,22,79222,bar,about_bar,17,13,55,12,13,88我可以这样成功地总结它们:importpandasaspddf=pd.read_csv("http://dpaste.com/1X74TNP.txt",header=None,index_col=[1,2]).iloc[:,1:]df.columns=pd.MultiI

python - 使用 openpyxl 将 pandas 数据框复制到 excel

我在模板文件中保存了一些复杂的格式,我需要将pandas数据帧中的数据保存到其中。问题是当我使用pd.to_excel保存到此工作表时,pandas会覆盖格式。有没有办法以某种方式将df中的值“粘贴”到工作表中?我正在使用Pandas0.17importopenpyxlimportpandasaspdwb=openpyxl.load_workbook('H:/template.xlsx')sheet=wb.get_sheet_by_name('spam')sheet.title='dfdata'wb.save('H:/df_out.xlsx')xlr=pd.ExcelWriter('d

python - Pandas to_datetime 解析错误的年份

我遇到了一些几乎可以肯定是我的愚蠢错误的事情,但我似乎无法弄清楚发生了什么。本质上,我有一系列日期作为字符串,格式为"%d-%b-%y",例如26-Sep-05。当我将它们转换为日期时间时,年份有时是正确的,但有时不是。例如:dates=['26-Sep-05','26-Sep-05','15-Jun-70','5-Dec-94','9-Jan-61','8-Feb-55']pd.to_datetime(dates,format="%d-%b-%y")DatetimeIndex(['2005-09-26','2005-09-26','1970-06-15','1994-12-05','

python - Pandas :累积返回函数

我有一个如下所示的数据框:IndexReturn2008-11-210.1534192008-11-240.0374212008-11-250.077500计算最后一行所有列的累积返回的最佳方法是什么?以下是预期结果:IndexReturn2008-11-210.1534192008-11-240.0374212008-11-250.077500Cumulative0.289316累计yield计算如下:cumulative=(1+return1)*(1+return2)*(1+return3)-1在pandas中执行此操作的最佳方法是什么? 最佳答案

python - 如何将一系列数组转换为 pandas/numpy 中的单个矩阵?

我以某种方式得到了一个pandas.Series,其中包含一堆数组,如下面代码中的s。data=[[1,2,3],[2,3,4],[3,4,5],[2,3,4],[3,4,5],[2,3,4],[3,4,5],[2,3,4],[3,4,5],[2,3,4],[3,4,5]]s=pd.Series(data=data)s.shape#output--->(11L,)#trytoconvertstomatrixsm=s.as_matrix()#but...sm.shape#output--->(11L,)如何将s转换为形状为(11,3)的矩阵?谢谢! 最佳答案

python - 如何替换 Pandas 数据框中字符串中的空格?

假设我有一个像这样的pandas数据框:Person_1Person_2Person_30JohnSmithJaneSmithMarkSmith1HarryJonesMaryJonesSusanJones可复制形式:df=pd.DataFrame([['JohnSmith','JaneSmith','MarkSmith'],['HarryJones','MaryJones','SusanJones'],columns=['Person_1','Person_2','Person_3'])用下划线_替换每个名字中名字和姓氏之间的空格的最佳方法是什么:Person_1Person_2Per

python - 找不到 Pandas Series.dt.total_seconds()

我需要一个以秒为单位的日期时间列,到处都是(includingthedocs)说我应该使用Series.dt.total_seconds()但它找不到函数。我假设我有一些错误的版本,但我没有...pipfreeze|greppandaspandas==0.20.3python--versionPython3.5.3这一切都在一个virtualenv中,它已经运行了很长时间而没有错误,其他Series.dt函数也可以运行。这是代码:frompandasimportSeriesfromdatetimeimportdatetimes=Series([datetime.now()for_inr

python - 推断 Pandas DataFrame 中的值

在PandasDataFrame中插入NaN单元非常容易:In[98]:dfOut[98]:negneuposavg2500.5084750.5270270.6412920.558931500NaNNaNNaNNaN10000.6500000.5714290.6539830.6251372000NaNNaNNaNNaN30000.6197180.6631580.6654680.6494484000NaNNaNNaNNaN6000NaNNaNNaNNaN8000NaNNaNNaNNaN10000NaNNaNNaNNaN20000NaNNaNNaNNaN30000NaNNaNNaNNaN5