草庐IT

panda_link

全部标签

python - 从 Pandas 的日期时间变量中删除时间?

我有一个变量,包含30万strip日期的记录,日期看起来像这样2015-02-2112:08:51从那天起我想删除时间日期变量的类型是pandas.core.series.series这是我试过的方法fromdatetimeimportdatetime,datedate_str=textdata['vfreceiveddate']format_string="%Y-%m-%d"then=datetime.strftime(date_str,format_string)一些随机错误上面代码中textdata是我的datasetname,vfreceiveddate是一个由日期组成的变量我

python - Pandas 数据精度

这个问题在这里已经有了答案:Howtoroundvaluesonlyfordisplayinpandaswhileretainingoriginalonesinthedataframe?(1个回答)关闭4年前。默认情况下,数据框中的数值最多只存储6位小数。我如何获得完整的精度。例如34.98774564765存储为34.987746。我确实想要完整的值(value)。并且0.00000565存储为0..除了将格式应用于每个数据框之外,还有任何有助于保持精度的全局设置。谢谢

python - 如何使用 Python Pandas 创建 'yyyymmdd' 格式的日期字符串列表?

我想要一个日期范围列表,其中每个元素都是'yyyymmdd'格式字符串,例如:['20130226','20130227','20130228','20130301','20130302'].我可以使用pandas来做到这一点:>>>pandas.date_range('20130226','20130302')[2013-02-2600:00:00,...,2013-03-0200:00:00]Length:5,Freq:D,Timezone:None但它是DatetimeIndex,我需要做一些额外的格式转换,那么如何以一种简洁的方式做到这一点呢? 最佳

python - Pandas Dataframe 中的 MultiIndex Groupby

我有一个数据集,其中包含按年份划分的国家和经济指标统计数据,组织方式如下:CountryMetric2011201220132014USAGDP7402USAPop.2303GBGDP8707GBPop.2600FRGDP5001FRPop.1105我如何在pandas中使用MultiIndex创建一个数据框,该数据框仅按年份显示每个国家/地区的GDP?我试过:df=data.groupby(['Country','Metric'])但它没有正常工作。 最佳答案 在这种情况下,您实际上不需要groupby。您也没有MultiInde

python - Pandas to_dict 使用 outtype ='records' 更改索引类型

我正在尝试在以下DataFrame上调用to_dict函数:将pandas导入为pddata={"a":[1,2,3,4,5],"b":[90,80,40,60,30]}df=pd.DataFrame(数据)ab01901280234034604530df.reset_index().to_dict("r")[{'a':1,'b':90,'index':0},{'a':2,'b':80,'index':1},{'a':3,'b':40,'index':2},{'a':4,'b':60,'index':3},{'a':5,'b':30,'index':4}]但是,如果我对数据帧执行浮点运

python - 我可以用 Pandas 附加到压缩流吗?

我知道通过将compression='gzip'参数传递给pd.to_csv()我可以将DataFrame保存到压缩的CSV文件中。my_df.to_csv('my_file_name.csv',compression='gzip')我也知道,如果我想附加一个DataFrame到现有CSV文件的末尾,我可以使用mode='a',就像这样my_df.to_csv('my_file_name.csv',mode='a',index=False)但是,如果我想将DataFrame附加到压缩的CSV文件的末尾怎么办?这可能吗?我试着这样做my_df.to_csv('my_file_name.c

python - 将 Pandas DataFrame 转换为 Spark DataFrame

我之前问过一个关于如何Convertscipysparsematrixtopyspark.sql.dataframe.DataFrame的问题,并在阅读提供的答案以及thisarticle后取得了一些进展.我最终找到了以下用于将scipy.sparse.csc_matrix转换为pandas数据帧的代码:df=pd.DataFrame(csc_mat.todense()).to_sparse(fill_value=0)df.columns=header然后我尝试使用建议的语法将pandas数据帧转换为spark数据帧:spark_df=sqlContext.createDataFram

python - Pandas 时间序列重新采样结束给定的一天

我怀疑许多处理时间序列数据的人已经遇到过这个问题,而pandas似乎没有提供直接的解决方案(还!):假设:您有一个包含收盘价的每日数据时间序列,按日期(天)编制索引。今天是19JUN。LastClose数据值为18JUN。您想要将每日数据重新采样到OHLC条中,以某个给定的频率(比如M或2M)结束于6月18日。所以对于Mfreq,最后一根柱线是19MAY-18JUN,前一根柱线是19APR-18MAY,依此类推...ts.resample('M',how='ohlc')将进行重采样,但“M”是“end_of_month”期间,因此结果将给出2014-05的完整月份和2014-06的2周

python - cx_Oracle中如何使用Pandas Write_Frame将结果导出到Oracle数据库

我正在尝试将PandasDataFrame导出到Oracle数据库。我在Pandas中遇到了Write_Frame函数,这听起来正是我所需要的。但是,我在网上进行了大量搜索,但就是无法正常工作。我已经导入了cx_Oracle并且可以连接到Oracle数据库以及运行SQL查询而没有任何问题,但是当我运行它时它会给我一个“NotImplementedError”:importpandas.io.sqlaspsqloutput=psql.write_frame(MyResults,name='MySchema.MyTable',con=MyCon,flavor='oracle',if_exi

python - Pandas :为什么 pandas.Series.std() 与 numpy.std() 完全不同

我得到了如下两段代码。importnumpynumpy.std([766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346])0和importpandasaspdpd.Series([766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346]).std(ddof=0)10.119288512538814这是