草庐IT

dataframe

全部标签

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个PySpark数据框+-------+--------------+----+----+|address|date|name|food|+-------+--------------+----+----+|1111111|20151122045510|Yin|gre||1111111|20151122045501|Yin|gre||1111111|20151122045500|Yln|gra||1111112|20151122065832|Yun|ddd||1111113|20160101003221|Yan|fdf||1111111|20160703045231|Yin|gr

python - 如何在 ipython 中将 Spark RDD 转换为 pandas 数据帧?

我有一个RDD,我想把它转换成pandasdataframe。我知道要将RDD转换为普通的dataframe我们可以这样做df=rdd1.toDF()但我想将RDD转换为pandasdataframe而不是普通的dataframe。我该怎么做? 最佳答案 您可以使用函数toPandas():ReturnsthecontentsofthisDataFrameasPandaspandas.DataFrame.ThisisonlyavailableifPandasisinstalledandavailable.>>>df.toPandas

python - 如何在 ipython 中将 Spark RDD 转换为 pandas 数据帧?

我有一个RDD,我想把它转换成pandasdataframe。我知道要将RDD转换为普通的dataframe我们可以这样做df=rdd1.toDF()但我想将RDD转换为pandasdataframe而不是普通的dataframe。我该怎么做? 最佳答案 您可以使用函数toPandas():ReturnsthecontentsofthisDataFrameasPandaspandas.DataFrame.ThisisonlyavailableifPandasisinstalledandavailable.>>>df.toPandas

python - Pandas groupby.size vs series.value_counts vs collections.Counter与多个系列

有很多问题(1、2、3)涉及单个系列中的计数值。但是,关于计数两个或多个系列的组合的最佳方法的问题较少。提出了解决方案(1,2),但没有讨论何时以及为什么应该使用它们。以下是对三种潜在方法的一些基准测试。我有两个具体问题:为什么grouper比count更高效?我希望count效率更高,因为它是在C中实现的。即使列数从2增加到4,grouper的卓越性能仍然存在。为什么value_counter比grouper差这么多?这是由于构建列表或从列表中构建系列的成本吗?我知道输出是不同的,这也应该通知选择。例如,使用连续的numpy数组与字典推导相比,按计数过滤更有效:x,z=grouper

python - Pandas groupby.size vs series.value_counts vs collections.Counter与多个系列

有很多问题(1、2、3)涉及单个系列中的计数值。但是,关于计数两个或多个系列的组合的最佳方法的问题较少。提出了解决方案(1,2),但没有讨论何时以及为什么应该使用它们。以下是对三种潜在方法的一些基准测试。我有两个具体问题:为什么grouper比count更高效?我希望count效率更高,因为它是在C中实现的。即使列数从2增加到4,grouper的卓越性能仍然存在。为什么value_counter比grouper差这么多?这是由于构建列表或从列表中构建系列的成本吗?我知道输出是不同的,这也应该通知选择。例如,使用连续的numpy数组与字典推导相比,按计数过滤更有效:x,z=grouper

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了2种方法,一种使用新的dataFrame,一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

python - ValueError : Length of values does not match length of index | Pandas DataFrame. 唯一()

我正在尝试获取新数据集,或将当前数据集列的值更改为其唯一值。这是我想要得到的一个例子:AB-----0|111|252|153|794|795|89WantedResultNotWantedResultABAB----------0|110|111|251|252|792|3|83|794|5|8我并不真正关心索引,但这似乎是问题所在。到目前为止,我的代码非常简单,我尝试了2种方法,一种使用新的dataFrame,一种没有。#WithNewDataFramedefUniqueResults(dataframe):df=pd.DataFrame()forcolindataframe:S=

python - pandas 滚动对象如何工作?

编辑:我浓缩了这个问题,因为它可能太复杂了。问题的重点在下面以粗体显示。我想了解更多有关使用DataFrame.rolling时实际创建的对象的信息或Series.rolling:print(type(df.rolling))一些背景:考虑经常使用的替代方案np.as_strided.这个代码片段本身并不重要,但它的结果是我提出这个问题的引用点。defrwindows(a,window):ifa.ndim==1:a=a.reshape(-1,1)shape=a.shape[0]-window+1,window,a.shape[-1]strides=(a.strides[0],)+a.s

python - pandas 滚动对象如何工作?

编辑:我浓缩了这个问题,因为它可能太复杂了。问题的重点在下面以粗体显示。我想了解更多有关使用DataFrame.rolling时实际创建的对象的信息或Series.rolling:print(type(df.rolling))一些背景:考虑经常使用的替代方案np.as_strided.这个代码片段本身并不重要,但它的结果是我提出这个问题的引用点。defrwindows(a,window):ifa.ndim==1:a=a.reshape(-1,1)shape=a.shape[0]-window+1,window,a.shape[-1]strides=(a.strides[0],)+a.s

Python Pandas : how to add a totally new column to a data frame inside of a groupby/transform operation

我想在我的数据中标记一些分位数,对于DataFrame的每一行,我希望在一个名为例如的新列中的条目"xtile"来保存这个值。例如,假设我创建一个这样的数据框:importpandas,numpyasnpdfrm=pandas.DataFrame({'A':np.random.rand(100),'B':(50+np.random.randn(100)),'C':np.random.randint(low=0,high=3,size=(100,))})假设我编写了自己的函数来计算数组中每个元素的五分位数。我对此有自己的功能,但例如只需引用scipy.stats.mstats.mquan