草庐IT

sample_dataframe

全部标签

python - 如何根据多个标准对 Pandas DataFrame 进行排序?

我有以下DataFrame,其中包含歌曲名称、他们的最高排行榜位置以及他们在第1位花费的周数:SongPeakWeeks76PaperbackWriter116117LadyMadonna19118HeyJude12722Can'tBuyMeLove11729AHardDay'sNight11448TicketToRide11456Help!117109AllYouNeedIsLove116173TheBalladOfJohnAndYoko11385EleanorRigby11487YellowSubmarine11420IWantToHoldYourHand12445IFeelFin

python - 创建大型 Pandas DataFrames : preallocation vs append vs concat

在逐block构建大型数据帧时,我对Pandas的性能感到困惑。在Numpy中,我们(几乎)总是通过预分配一个大的空数组然后填充值来获得更好的性能。据我了解,这是由于Numpy一次抓取了它需要的所有内存,而不是每次append操作都必须重新分配内存。在Pandas中,我似乎通过使用df=df.append(temp)模式获得了更好的性能。这是一个计时示例。Timer类的定义如下。正如你所见,我发现预分配比使用append慢大约10倍!使用适当dtype的np.empty值预分配数据帧有很大帮助,但append方法仍然是最快的。importnumpyasnpfromnumpy.rando

python - 创建大型 Pandas DataFrames : preallocation vs append vs concat

在逐block构建大型数据帧时,我对Pandas的性能感到困惑。在Numpy中,我们(几乎)总是通过预分配一个大的空数组然后填充值来获得更好的性能。据我了解,这是由于Numpy一次抓取了它需要的所有内存,而不是每次append操作都必须重新分配内存。在Pandas中,我似乎通过使用df=df.append(temp)模式获得了更好的性能。这是一个计时示例。Timer类的定义如下。正如你所见,我发现预分配比使用append慢大约10倍!使用适当dtype的np.empty值预分配数据帧有很大帮助,但append方法仍然是最快的。importnumpyasnpfromnumpy.rando

python - 在 Pandas `TimeStamp` 中将 `DataFrame` 列截断为小时精度

我有一个名为df的pandas.DataFrame,它有一个自动生成的索引,其中有一列dt:df['dt'].dtype,df['dt'][0]#(dtype('我想做的是创建一个截断为小时精度的新列。我目前正在使用:df['dt2']=df['dt'].apply(lambdaL:datetime(L.year,L.month,L.day,L.hour))这行得通,所以没关系。但是,我有一种使用pandas.tseries.offsets或创建DatetimeIndex或类似方法的好方法。如果可能的话,是否有一些pandas魔法可以做到这一点? 最佳答案

python - 在 Pandas `TimeStamp` 中将 `DataFrame` 列截断为小时精度

我有一个名为df的pandas.DataFrame,它有一个自动生成的索引,其中有一列dt:df['dt'].dtype,df['dt'][0]#(dtype('我想做的是创建一个截断为小时精度的新列。我目前正在使用:df['dt2']=df['dt'].apply(lambdaL:datetime(L.year,L.month,L.day,L.hour))这行得通,所以没关系。但是,我有一种使用pandas.tseries.offsets或创建DatetimeIndex或类似方法的好方法。如果可能的话,是否有一些pandas魔法可以做到这一点? 最佳答案

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段,这将进一步增加。如果我手动给schema指定每个字段信息,那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。 最佳答案 看,在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段,这将进一步增加。如果我手动给schema指定每个字段信息,那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。 最佳答案 看,在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python - 在几个 DataFrame 列上运行 get_dummies?

如何在多个DataFrame列上惯用地运行像get_dummies这样的函数,它需要一个列并返回多个列? 最佳答案 使用pandas0.19,您可以在一行中完成:pd.get_dummies(data=df,columns=['A','B'])Columns指定在何处进行OneHotEncoding。>>>dfABC0ac11bc22ab3>>>pd.get_dummies(data=df,columns=['A','B'])CA_aA_bB_bB_c011.00.00.01.0120.01.00.01.0231.00.01.00.

python - 在几个 DataFrame 列上运行 get_dummies?

如何在多个DataFrame列上惯用地运行像get_dummies这样的函数,它需要一个列并返回多个列? 最佳答案 使用pandas0.19,您可以在一行中完成:pd.get_dummies(data=df,columns=['A','B'])Columns指定在何处进行OneHotEncoding。>>>dfABC0ac11bc22ab3>>>pd.get_dummies(data=df,columns=['A','B'])CA_aA_bB_bB_c011.00.00.01.0120.01.00.01.0231.00.01.00.

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个PySpark数据框+-------+--------------+----+----+|address|date|name|food|+-------+--------------+----+----+|1111111|20151122045510|Yin|gre||1111111|20151122045501|Yin|gre||1111111|20151122045500|Yln|gra||1111112|20151122065832|Yun|ddd||1111113|20160101003221|Yan|fdf||1111111|20160703045231|Yin|gr