草庐IT

pyspark-dataframes

全部标签

python - 在两个 Numpy 数组之间创建 Pandas Dataframe,然后绘制散点图

我对numpy和pandas比较陌生(我是一名实验物理学家,所以多年来我一直在使用ROOT……)。ROOT中的一个常见图是2D散点图,其中给定x和y值列表,生成一个变量与另一个变量的“热图”类型散点图。如何用numpy和Pandas最好地完成这项工作?我正在尝试使用Dataframe.plot()函数,但我什至难以创建Dataframe。importnumpyasnpimportpandasaspdx=np.random.randn(1,5)y=np.sin(x)df=pd.DataFrame(d)首先,这个数据框的形状为(1,2),但我希望它的形状为(5,2)。如果我能得到正确的数据

python - 在两个 Numpy 数组之间创建 Pandas Dataframe,然后绘制散点图

我对numpy和pandas比较陌生(我是一名实验物理学家,所以多年来我一直在使用ROOT……)。ROOT中的一个常见图是2D散点图,其中给定x和y值列表,生成一个变量与另一个变量的“热图”类型散点图。如何用numpy和Pandas最好地完成这项工作?我正在尝试使用Dataframe.plot()函数,但我什至难以创建Dataframe。importnumpyasnpimportpandasaspdx=np.random.randn(1,5)y=np.sin(x)df=pd.DataFrame(d)首先,这个数据框的形状为(1,2),但我希望它的形状为(5,2)。如果我能得到正确的数据

python - 如何根据多个标准对 Pandas DataFrame 进行排序?

我有以下DataFrame,其中包含歌曲名称、他们的最高排行榜位置以及他们在第1位花费的周数:SongPeakWeeks76PaperbackWriter116117LadyMadonna19118HeyJude12722Can'tBuyMeLove11729AHardDay'sNight11448TicketToRide11456Help!117109AllYouNeedIsLove116173TheBalladOfJohnAndYoko11385EleanorRigby11487YellowSubmarine11420IWantToHoldYourHand12445IFeelFin

python - 如何根据多个标准对 Pandas DataFrame 进行排序?

我有以下DataFrame,其中包含歌曲名称、他们的最高排行榜位置以及他们在第1位花费的周数:SongPeakWeeks76PaperbackWriter116117LadyMadonna19118HeyJude12722Can'tBuyMeLove11729AHardDay'sNight11448TicketToRide11456Help!117109AllYouNeedIsLove116173TheBalladOfJohnAndYoko11385EleanorRigby11487YellowSubmarine11420IWantToHoldYourHand12445IFeelFin

python - 在 PySpark 中的 GroupedData 上应用 UDF(带有功能 Python 示例)

我有这个在pandas数据框中本地运行的python代码:df_result=pd.DataFrame(df.groupby('A').apply(lambdax:myFunction(zip(x.B,x.C),x.name))我想在PySpark中运行它,但无法处理pyspark.sql.group.GroupedData对象。我尝试了以下方法:sparkDF.groupby('A').agg(myFunction(zip('B','C'),'A'))返回KeyError:'A'我推测是因为“A”不再是一列,而且我找不到x.name的等价物。然后sparkDF.groupby('A'

python - 在 PySpark 中的 GroupedData 上应用 UDF(带有功能 Python 示例)

我有这个在pandas数据框中本地运行的python代码:df_result=pd.DataFrame(df.groupby('A').apply(lambdax:myFunction(zip(x.B,x.C),x.name))我想在PySpark中运行它,但无法处理pyspark.sql.group.GroupedData对象。我尝试了以下方法:sparkDF.groupby('A').agg(myFunction(zip('B','C'),'A'))返回KeyError:'A'我推测是因为“A”不再是一列,而且我找不到x.name的等价物。然后sparkDF.groupby('A'

python - PySpark 序列化 EOFError

我正在读取CSV作为SparkDataFrame并对其执行机器学习操作。我不断收到Python序列化EOFError-知道为什么吗?我认为这可能是一个内存问题——即文件超出了可用RAM——但大幅减小DataFrame的大小并不能防止EOF错误。下面的玩具代码和错误。#setsparkcontextconf=SparkConf().setMaster("local").setAppName("MyApp")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)#readin500mbcsvasDataFramedf=sqlContext.r

python - PySpark 序列化 EOFError

我正在读取CSV作为SparkDataFrame并对其执行机器学习操作。我不断收到Python序列化EOFError-知道为什么吗?我认为这可能是一个内存问题——即文件超出了可用RAM——但大幅减小DataFrame的大小并不能防止EOF错误。下面的玩具代码和错误。#setsparkcontextconf=SparkConf().setMaster("local").setAppName("MyApp")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)#readin500mbcsvasDataFramedf=sqlContext.r

python - 创建大型 Pandas DataFrames : preallocation vs append vs concat

在逐block构建大型数据帧时,我对Pandas的性能感到困惑。在Numpy中,我们(几乎)总是通过预分配一个大的空数组然后填充值来获得更好的性能。据我了解,这是由于Numpy一次抓取了它需要的所有内存,而不是每次append操作都必须重新分配内存。在Pandas中,我似乎通过使用df=df.append(temp)模式获得了更好的性能。这是一个计时示例。Timer类的定义如下。正如你所见,我发现预分配比使用append慢大约10倍!使用适当dtype的np.empty值预分配数据帧有很大帮助,但append方法仍然是最快的。importnumpyasnpfromnumpy.rando

python - 创建大型 Pandas DataFrames : preallocation vs append vs concat

在逐block构建大型数据帧时,我对Pandas的性能感到困惑。在Numpy中,我们(几乎)总是通过预分配一个大的空数组然后填充值来获得更好的性能。据我了解,这是由于Numpy一次抓取了它需要的所有内存,而不是每次append操作都必须重新分配内存。在Pandas中,我似乎通过使用df=df.append(temp)模式获得了更好的性能。这是一个计时示例。Timer类的定义如下。正如你所见,我发现预分配比使用append慢大约10倍!使用适当dtype的np.empty值预分配数据帧有很大帮助,但append方法仍然是最快的。importnumpyasnpfromnumpy.rando