草庐IT

pyspark-dataframes

全部标签

python - PySpark DataFrames - 在不转换为 Pandas 的情况下进行枚举的方法?

我有一个非常大的pyspark.sql.dataframe.DataFrame名为df。我需要一些枚举记录的方法——因此,能够访问具有特定索引的记录。(或选择具有索引范围的记录组)在Pandas中,我可以做到indexes=[2,3,6,7]df[indexes]我想要类似的东西,(并且没有将数据框转换为pandas)我能得到的最接近的是:通过以下方式枚举原始数据框中的所有对象:indexes=np.arange(df.count())df_indexed=df.withColumn('index',indexes)使用where()函数搜索我需要的值。问题:为什么它不起作用以及如何让

python - 如何使用 seaborn 为我的 DataFrame 创建堆叠条形图

这个问题在这里已经有了答案:Howtohaveclustersofstackedbars(10个答案)关闭5年前。我有一个DataFramedf:df=pd.DataFrame(columns=["App","Feature1","Feature2","Feature3","Feature4","Feature5","Feature6","Feature7","Feature8"],data=[['SHA',0,0,1,1,1,0,1,0],['LHA',1,0,1,1,0,1,1,0],['DRA',0,0,0,0,0,0,1,0],['FRA',1,0,1,1,1,0,1,1],[

python - 如何使用 seaborn 为我的 DataFrame 创建堆叠条形图

这个问题在这里已经有了答案:Howtohaveclustersofstackedbars(10个答案)关闭5年前。我有一个DataFramedf:df=pd.DataFrame(columns=["App","Feature1","Feature2","Feature3","Feature4","Feature5","Feature6","Feature7","Feature8"],data=[['SHA',0,0,1,1,1,0,1,0],['LHA',1,0,1,1,0,1,1,0],['DRA',0,0,0,0,0,0,1,0],['FRA',1,0,1,1,1,0,1,1],[

python - 在 DataFrame 索引中查找标签位置

我有一个Pandas数据框:importpandasaspndd=pnd.Timestamp('2013-01-0116:00')dates=pnd.bdate_range(start=d,end=d+pnd.DateOffset(days=10),normalize=False)df=pnd.DataFrame(index=dates,columns=['a'])df['a']=6print(df)a2013-01-0116:00:0062013-01-0216:00:0062013-01-0316:00:0062013-01-0416:00:0062013-01-0716:00:0

python - 在 DataFrame 索引中查找标签位置

我有一个Pandas数据框:importpandasaspndd=pnd.Timestamp('2013-01-0116:00')dates=pnd.bdate_range(start=d,end=d+pnd.DateOffset(days=10),normalize=False)df=pnd.DataFrame(index=dates,columns=['a'])df['a']=6print(df)a2013-01-0116:00:0062013-01-0216:00:0062013-01-0316:00:0062013-01-0416:00:0062013-01-0716:00:0

python - 在 Pandas DataFrame 子集(副本)上设置值很慢

importtimeitimportpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.rand(10,10))dft=df[[True,False]*5]#df=dftdft2=dft.copy()new_data=np.random.rand(5,10)print(timeit.timeit('dft.loc[:,:]=new_data',setup='from__main__importdft,new_data',number=100))print(timeit.timeit('dft2.loc[:,:]=new_data',se

python - 在 Pandas DataFrame 子集(副本)上设置值很慢

importtimeitimportpandasaspdimportnumpyasnpdf=pd.DataFrame(np.random.rand(10,10))dft=df[[True,False]*5]#df=dftdft2=dft.copy()new_data=np.random.rand(5,10)print(timeit.timeit('dft.loc[:,:]=new_data',setup='from__main__importdft,new_data',number=100))print(timeit.timeit('dft2.loc[:,:]=new_data',se

python - 如何从 PySpark 中的不同线程在一个 Sparkcontext 中运行多个作业?

从Spark文档中了解到SchedulingWithinanApplication:InsideagivenSparkapplication(SparkContextinstance),multipleparalleljobscanrunsimultaneouslyiftheyweresubmittedfromseparatethreads.By“job”,inthissection,wemeanaSparkaction(e.g.save,collect)andanytasksthatneedtoruntoevaluatethataction.Spark’sschedulerisful

python - 如何从 PySpark 中的不同线程在一个 Sparkcontext 中运行多个作业?

从Spark文档中了解到SchedulingWithinanApplication:InsideagivenSparkapplication(SparkContextinstance),multipleparalleljobscanrunsimultaneouslyiftheyweresubmittedfromseparatethreads.By“job”,inthissection,wemeanaSparkaction(e.g.save,collect)andanytasksthatneedtoruntoevaluatethataction.Spark’sschedulerisful

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做? 最佳答案 这里有一个优化的方式来解析带有re的文件,首先获取ID,然后解析数据元组。