Pandas-Datareader

python - 如何在不添加额外索引的情况下使用 Pandas groupby apply()

我经常想通过组合分组DataFrame的多个列来创建一个新的DataFrame。apply()函数允许我这样做，但它要求我创建一个不需要的索引:In[359]:df=pandas.DataFrame({'x':3*['a']+2*['b'],'y':np.random.normal(size=5),'z':np.random.normal(size=5)})In[360]:dfOut[360]:xyz0a0.201980-0.4703881a0.190846-2.0890322a-1.1310100.2278593b-0.263865-1.9065754b-1.335956-0.722

何在 groupby x.y x.z 39 python pandas apply

python - Pandas 内存

我有冗长的计算，我重复了很多次。因此，我想使用内存(如jug和joblib等包)，与Pandas一致.问题是这个包是否能很好地内存PandasDataFrames作为方法参数。有人试过吗？有没有其他推荐的包/方法来做到这一点？最佳答案 jug的作者在这里:jug工作正常。我刚刚尝试了以下方法并且有效:fromjugimportTaskGeneratorimportpandasaspdimportnumpyasnp@TaskGeneratordefgendata():returnpd.DataFrame(np.arange(3434

python Pandas section noreferrer noopener package memoization

python - 对 pandas DataFrame 进行就地行操作

假设我有这个:>>>x=pandas.DataFrame([[1.0,2.0,3.0],[3,4,5]],columns=["A","B","C"])>>>printxABC01231345现在我想按行规范化x---也就是说，将每一行除以其总和。如thisquestion中所述，这可以通过x=x.div(x.sum(axis=1),axis=0)来实现。但是，这会创建一个新DataFrame。如果我的DataFrame很大，即使我立即将其分配给原始名称，创建这个新DataFrame也会消耗大量内存。是否有一种有效的方法来执行此操作？我想要类似x.idiv()的东西，它提供div的axi

就地 DataFrame code section python pandas

python - Pandas ，将系列连接到 DF 作为行

我试图将一个系列添加到一个空的DataFrame中，但找不到答案在文档或其他问题中。因为您可以按行附加两个DataFrame或者按列看来系列中必须缺少一个“轴标记”。能谁能解释为什么这不起作用？importPandasaspddf1=pd.DataFrame()s1=pd.Series(['a',5,6])df1=pd.concat([df1,s1],axis=1)#gorunsomeprocessreturns2,s3,sn...s2=pd.Series(['b',8,9])df1=pd.concat([df1,s2],axis=1)s3=pd.Series(['c',10,11])

python Pandas DataFrame code section concat series

python - Pandas 的数据框(Python)是否更接近 R 的数据框或数据表？

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭4年前。Improvethisquestion要理解我的问题，我应该首先指出R数据表不仅仅是带有语法糖的R数据帧，还有重要的行为差异:数据表中通过引用进行列分配/修改避免了在内存中复制整个对象(请参阅thisquoraanswer中的示例)，因为它是数据帧中的情况。我多次发现data.table的行为引起的速度和内存差异是一个关键因素，它允许人们处理一些大数据集，而它不会data.frame的行为是可能的。因此，我想知道的是:在Python中

python Pandas section code column r dataframe data.table

python - Pandas 使用跨多个列的字典值相乘

给定以下数据框:importpandasaspddf=pd.DataFrame({'a':[1,2,3,4,5],'b':[5,4,3,3,4],'c':[3,2,4,3,10],'d':[3,2,1,1,1]})以及以下参数列表:params={'a':2.5,'b':3.0,'c':1.3,'d':0.9}生成以下所需的输出:abcdoutput0153324.11242221.42334122.63433123.845410138.4我一直在用它来产生结果:df['output']=[np.sum(params[col]*df.loc[idx,col]forcolindf)for

相乘 python code pandas section numpy

python - 将 geopandas geodataframe 转换为 pandas dataframe

将geopandasgeodataframe转换为pandasdataframe的最有效方法是什么？以下是我使用的方法，是否有另一种方法更有效或通常不会产生错误？importgeopandasasgpdimportpandasaspd#assumingIhaveashapefilenamedshp1.shpgdf1=gpd.read_file('shp1.shp')#thenfortheconversion,Idropthelastcolumn(geometry)andspecifythecolumnnamesforthenewdfdf1=pd.DataFrame(gdf1.iloc[

geodataframe geopandas DataFrame section code python pandas

python - 如何在 Pandas 中创建新列，并有条件重复另一列的值？

我是Python的初学者，我有一个看起来像这样的大DataFrame:importpandasaspddf=pd.DataFrame({'Total':[10,10,10,10,10,10,10,10,10,10],\'Type':['Child','Boy','Girl','Senior','','','','','',''],\'Count':[4,5,1,0,'','','','','','']})df[["Total","Type","Count"]]df输出:TotalTypeCount010Child4110Boy5210Girl1310Senior041051061071

中创何在 39 10 code python pandas dataframe

python - Pandas:获取 2 个数据框列之间的最小值

我有2列，我希望第3列是它们之间的最小值。我的数据如下所示:AB021121224324435535636736我想通过以下方式获得C列:ABC02111211224232424353535363637363一些帮助代码:df=pd.DataFrame({'A':[2,2,2,2,3,3,3,3],'B':[1,1,4,4,5,5,6,6]})谢谢! 最佳答案使用df.min(axis=1)df['c']=df.min(axis=1)dfOut[41]:ABc02111211224232424353535363637363这将返回

python Pandas code pre numpy python-3.x dataframe min

python - 如何使用 Python 仅保留 Pandas 数据框中的连续值

我有一个看起来像这样的数据框:我想只保留每个组中连续的年份，如下图，A组中的2005年和B组中的2009年和2011年被删除。我使用df['year_diff']=df.groupby(['group'])['Year'].diff()创建了一个年份差异列，然后仅保留年份差等于1的行。但是，此方法还将删除每个连续年份组中的第一行，因为第一行的年份差异将为NAN。例如，2000年将从组2000-2005中删除。有什么办法可以避免这个问题吗？最佳答案转移像OP第一次做的那样获取年份差异。然后检查是否等于1或者之前的值是1yd=df.

python code section image pandas dataframe

81 82 838485 86 87