Pandas-Datareader

python - 将具有混合数据和类别的 pandas DataFrame 存储到 hdf5 中

我想将具有不同列的数据帧存储到一个hdf5文件中(在下面找到数据类型的摘录)。In[1]:mydfOut[1]:endTimeuint32distancefloat16signaturecategoryanchorNamecategorystationListobject在转换某些列(上面摘录中的signature和anchorName)之前，我使用了如下代码来存储它(效果很好):path='tmp4.hdf5'key='journeys'mydf.to_hdf(path,key,mode='w',complevel=9,complib='bzip2')但它不适用于类别，然后我尝试了以

DataFrame python 39 stationList code pandas

python - Pandas DataFrame.unstack() 更改行和列标题的顺序

我遇到了以下对行和列标题进行排序的问题。这里是重现这个的方法:X=pd.DataFrame(dict(x=np.random.normal(size=100),y=np.random.normal(size=100)))A=pd.qcut(X['x'],[0,0.25,0.5,0.75,1.0])#createafactorB=pd.qcut(X['y'],[0,0.25,0.5,0.75,1.0])#createanotherfactorg=X.groupby([A,B])['x'].mean()#doatwo-waybucketingprintg#thisgivesthefollo

DataFrame unstack code 0.0321 0.724 python pandas

python - 在 Pandas 中查询 HDF5

我将以下数据(18,619,211行)作为pandas数据框对象存储在hdf5文件中:dateid2wid1000101980-03-31104010.0008391000101980-03-31106040.0201401000101980-03-31124900.0261491000101980-03-31130470.0335601000101980-03-31133030.001657其中id是索引，其他是列。日期是np.datetime64。我需要执行这样的查询(代码当然不起作用):db=pd.HDFStore('database.h5')data=db.select('df

python Pandas code 2001 date datetime hdf5 pytables

python - 沿着时间序列索引连接 pandas DataFrame

我有两个较大的(提供了片段)pandasDateFrame，它们具有不相等的日期作为索引，我希望将它们合并为一个:NAB.AXCBA.AXCloseVolumeCloseVolumeDateDate2009-06-0536.5149629002009-06-0821.9502009-06-0436.7955288002009-06-0521.9589170002009-06-0336.8051165002009-06-0422.21187236002009-06-0236.3353037002009-06-0323.11116438002009-06-0136.165625500200

沿着 DataFrame 2009 NaN 39 python numpy scipy pandas yahoo-finance

python - 计算大于 pandas groupby 中的值的项目

我有Yelp数据集，我想计算所有超过3星的评论。我通过这样做得到评论的数量:reviews.groupby('business_id')['stars'].count()现在我想获得超过3星的评论数，所以我从here中获得灵感来尝试这个:reviews.groupby('business_id')['stars'].agg({'greater':lambdaval:(val>3).count()})但这只是像以前一样给我所有星星的计数。我不确定这是否是正确的方法？我在这里做错了什么。lambda表达式不遍历stars列的每个值吗？编辑:好吧，我觉得很愚蠢。我应该使用sum函数而不是co

groupby python section 39 python-3.x pandas

python - 在 HDF5 中存储 Pandas 对象和常规 Python 对象

Pandas有一个niceinterface这有助于在HDF5中存储诸如Dataframes和Series之类的东西:random_matrix=np.random.random_integers(0,10,m_size)my_dataframe=pd.DataFrame(random_matrix)store=pd.HDFStore('some_file.h5',complevel=9,complib='bzip2')store['my_dataframe']=my_dataframestore.close()但是如果我尝试在同一个文件中保存一些其他常规Python对象，它会提示:m

python Pandas 39 store section hdf5

python - 识别 pandas DataFrame 的列中连续出现的值

我有一个像这样的df:Count1011001110如果Count中1和连续出现两次或多次，我想在新列中返回1code>0如果没有。因此，在新列中，根据列Count中满足的条件，每一行都将获得1。我想要的输出将是:CountNew_Value10001111000011111100我在想我可能需要使用itertools但我一直在阅读它，但还没有找到我需要的东西。我希望能够使用此方法来计算任意数量的连续出现次数，而不仅仅是2次。例如，有时我需要计算连续出现的10次，我在这里的示例中只使用2。最佳答案你可以:df['consecut

DataFrame python code Count pre pandas

python - pandas - 如何获取 groupby 对象的最后 n 组并将它们组合为数据框

如何在df.groupby()之后获取最后“n”组并将它们合并为一个数据框。data=pd.read_sql_query(sql=sqlstr,con=sql_conn,index_col='SampleTime')grouped=data.groupby(data.index.date,sort=False)完成grouped.ngroups后，我得到的组总数为277。我想合并最后12个组并生成一个数据框。最佳答案 PandasGroupBy对象是可迭代的。要提取可迭代对象的最后n元素，通常不需要从可迭代对象创建列表并对最后n元

并将为数 code collections section python pandas pandas-groupby

python - 如何将层次结构或多索引应用于 Pandas 列

我看过很多关于如何分层排列数据帧行索引的示例，但我正在尝试对列做同样的事情，但我不理解语法:给定:df=pd.DataFrame(np.random.randn(10,10),columns=['consumption','voltage','consumption','voltage','temperature','humidity','consumption','voltage','temperature','humidity'],index=pd.date_range('20000103',periods=10))>>>dfconsumptionvoltageconsumptio

多索 python 2000 01 code pandas dataframe

python - 根据列表对 Pandas 数据框进行排序

我想对以下数据框进行排序:RegionLSENorthSouth0Cn33.3303679.1789171Develd-36.157025-27.6699882Wetnds-38.480206-46.0899083Oands-47.986764-32.3249914Otherg323.20983428.4863105Soys34.9361474.0728726Wht0.983977-14.972555我想对其进行排序，以便根据列表对LSE列进行重新排序:lst=['Oands','Wetnds','Develd','Cn','Soys','Otherg','Wht']当然，其他列也需要

python Pandas code 39 section

102 103 104105106 107 108