草庐IT

Pandas-Datareader

全部标签

python - 将 Pandas DataFrame 转换为 Spark DataFrame

我之前问过一个关于如何Convertscipysparsematrixtopyspark.sql.dataframe.DataFrame的问题,并在阅读提供的答案以及thisarticle后取得了一些进展.我最终找到了以下用于将scipy.sparse.csc_matrix转换为pandas数据帧的代码:df=pd.DataFrame(csc_mat.todense()).to_sparse(fill_value=0)df.columns=header然后我尝试使用建议的语法将pandas数据帧转换为spark数据帧:spark_df=sqlContext.createDataFram

python - Pandas 时间序列重新采样结束给定的一天

我怀疑许多处理时间序列数据的人已经遇到过这个问题,而pandas似乎没有提供直接的解决方案(还!):假设:您有一个包含收盘价的每日数据时间序列,按日期(天)编制索引。今天是19JUN。LastClose数据值为18JUN。您想要将每日数据重新采样到OHLC条中,以某个给定的频率(比如M或2M)结束于6月18日。所以对于Mfreq,最后一根柱线是19MAY-18JUN,前一根柱线是19APR-18MAY,依此类推...ts.resample('M',how='ohlc')将进行重采样,但“M”是“end_of_month”期间,因此结果将给出2014-05的完整月份和2014-06的2周

python - cx_Oracle中如何使用Pandas Write_Frame将结果导出到Oracle数据库

我正在尝试将PandasDataFrame导出到Oracle数据库。我在Pandas中遇到了Write_Frame函数,这听起来正是我所需要的。但是,我在网上进行了大量搜索,但就是无法正常工作。我已经导入了cx_Oracle并且可以连接到Oracle数据库以及运行SQL查询而没有任何问题,但是当我运行它时它会给我一个“NotImplementedError”:importpandas.io.sqlaspsqloutput=psql.write_frame(MyResults,name='MySchema.MyTable',con=MyCon,flavor='oracle',if_exi

python - Pandas :为什么 pandas.Series.std() 与 numpy.std() 完全不同

我得到了如下两段代码。importnumpynumpy.std([766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346])0和importpandasaspdpd.Series([766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346,766897346]).std(ddof=0)10.119288512538814这是

应用于行的所有成对组合的 Python pandas 函数

我正在尝试对pandas数据框中所有成对的行组合运行一个函数(相关):stats=dict()forlinitertools.combinations(dat.index.tolist(),2):stats[l]=pearsonr(dat.loc[l[0],:],dat.loc[l[1],:])#stores(r,p)当然这很慢,我想知道如何通过使用类似apply()或其他方式来做同样的事情。注意:我知道我可以直接找到数据帧与pandascorr()的相关性函数,但是它不返回关联的p值(我需要它用于过滤目的) 最佳答案 这应该可以加

python - 用于搜索的 Pandas 列索引?

在关系型数据库中,我们可以在列上创建索引,以加快对这些列的查询和连接。我想在Pandas数据框上做同样的事情。行索引似乎不是关系数据库提供的。问题是:默认情况下,pandas中的列是否已索引以供搜索?如果不能,是否可以手动索引列以及如何做?编辑:我已阅读pandas文档并到处搜索,但没有人提到pandas的索引和搜索/合并性能。似乎没有人关心这个问题,尽管它在关系数据库中很关键。任何人都可以就Pandas的索引和性能发表声明吗?谢谢。 最佳答案 如@pvg所述-pandas模型不是内存关系数据库的模型。所以,如果我们试图用sql和它

python - Pandas 中奇怪的数据操作

我正在阅读WesMckinney的PythonforDataAnalysis,但我对这种数据操作感到惊讶。可以看到所有程序here但我会尽量在这里总结一下。假设你有这样的东西:In[133]:agg_counts=by_tz_os.size().unstack().fillna(0)Out[133]:aNotWindowsWindowstz245276Africa/Cairo03Africa/Casablanca01Africa/Ceuta02Africa/Johannesburg01Africa/Lusaka01America/Anchorage41...tz表示时区,NotWind

python - 使用 pandas.io.sql.read_frame,我可以像 read_csv 一样解析日期吗?

我正在使用pandas.io.sql.read_frame直接从数据库读取data_frame:cnx=pandas.io.sql.connect(host='srv',user='me',password='pw',database='db')df=pandas.io.sql.read_frame('sql_query',cnx)它可以很好地检索数据。但我想将其中一列解析为datetime64,类似于从CSV文件读取时可以执行的操作,例如:df2=pandas.io.read_csv(csv_file,parse_dates=[0])但是read_frame没有parse_dates

python - PyCharm (1.5.4) 和 Pandas 0.6.0 - ImportError : No module named data

我在MacOS10.6.4上使用PyCharm(1.5.4)作为我的pythonIDE。我正在修改一些代码来操纵股价数据。作为其中的一部分,我想使用Pandas0.6.0附带的DataReader函数从雅虎导入价格数据。代码如下:http://www.statalgo.com/2011/09/08/pandas-getting-financial-data-from-yahoo-fred-etc/frompandasimportols,DataFramefrompandas.stats.momentsimportrolling_stdfrompandas.io.dataimportDa

python - 将 python pandas DataFrame 转换为 R dataframe 以与 rpy2 一起使用的问题

我无法将Python中的pandasDataFrame转换为R对象,以便将来使用rpy2在R中使用。新的pandas版本0.8.0(几周前发布)具有将pandasDataFrames转换为RDataFrames的功能。问题在于转换我的pandasDataFrame的第一列,它由pythondatetime对象组成(在时间序列中连续)。转换为R数据帧会返回日期和时间的StrVector,而不是我认为称为“POSIXct”对象的R日期时间类型对象的向量。我知道使用命令“as.POSIXct('yyyy-mm-ddhh:mm:ss')”将返回类型的字符串转换为POSIXct的命令。不幸的是,