pyspark-dataframes

Pyspark 中的增量数据加载和查询，无需重新启动 Spark JOB

IncrementalDataloadingandQueryinginPysparkwithoutrestartingSparkJOB大家好，我想做增量数据查询。123456789 df=spark.read.csv('csvFile',header=True) #1000Rows df.persist()#Assumeittakes5min df.registerTempTable('data_table')#orcreateOrReplaceTempView result=spark.sql('select*fromdata_tablewherecolumn1>10')#100rows d

Pyspark Spark nbsp br section apache-spark pyspark pyspark-sql spark-dataframe

关于 pyspark：Spark Parquet Loader：减少列出数据框文件所涉及的作业数量

SparkParquetLoader:Reducenumberofjobsinvolvedinlistingadataframe'sfiles我正在通过将parquet数据加载到数据框中1spark.read.parquet('hdfs:///path/goes/here/...')由于parquet分区，该路径中有大约50k个文件。当我运行该命令时，spark会生成数十个小作业，这些小作业总体上需要几分钟才能完成。以下是sparkUI中作业的外观：如您所见，虽然每个作业有大约2100个任务，但它们执行速度很快，大约2秒。启动这么多"迷你作业"效率低下，并导致此文件列出步骤大约需要10分钟(其

pyspark Parquet section spark wyn apache-spark

关于 pyspark：Spark Parquet Loader：减少列出数据框文件所涉及的作业数量

SparkParquetLoader:Reducenumberofjobsinvolvedinlistingadataframe'sfiles我正在通过将parquet数据加载到数据框中1spark.read.parquet('hdfs:///path/goes/here/...')由于parquet分区，该路径中有大约50k个文件。当我运行该命令时，spark会生成数十个小作业，这些小作业总体上需要几分钟才能完成。以下是sparkUI中作业的外观：如您所见，虽然每个作业有大约2100个任务，但它们执行速度很快，大约2秒。启动这么多"迷你作业"效率低下，并导致此文件列出步骤大约需要10分钟(其

pyspark Parquet section spark wyn apache-spark

关于 jdbc：Spark Dataframe 是否对 DB 应用了转换？

DoesSparkDataframeapliesthetransformationsagainstDB?当我用PySpark获得一张桌子时12345df1=session.read.jdbc(url=self.url, table=self.table, properties={"driver":self.driver, "user":self.user, "password":self.password})或123456df1=sql.read.format("com.databr

Dataframe Spark nbsp section wyn apache-spark apache-spark-sql jdbc pyspark pyspark-sql

关于 jdbc：Spark Dataframe 是否对 DB 应用了转换？

DoesSparkDataframeapliesthetransformationsagainstDB?当我用PySpark获得一张桌子时12345df1=session.read.jdbc(url=self.url, table=self.table, properties={"driver":self.driver, "user":self.user, "password":self.password})或123456df1=sql.read.format("com.databr

Dataframe Spark nbsp section wyn apache-spark apache-spark-sql jdbc pyspark pyspark-sql

关于apache spark:Can\\’t import lzo files in pyspark

Can'timportlzofilesinpyspark我有一个以lzo格式压缩的csv文件，我想将其导入pyspark数据帧。如果文件没有压缩，我会这样做：1234importpysparkaspsspark=ps.sql.SparkSession.builder.master("local[2]").getOrCreate()data=spark.read.csv(fp,schema=SCHEMA,sep="\\t")文件路径fp和模式SCHEMA在别处正确定义。但是，当使用lzo压缩文件时，这将返回一个填充有null值的数据帧。我已经在我的机器上安装了lzop，可以从终端解压缩文件，然后

pyspark apache nbsp section br apache-spark lzo

关于apache spark:Can\\’t import lzo files in pyspark

Can'timportlzofilesinpyspark我有一个以lzo格式压缩的csv文件，我想将其导入pyspark数据帧。如果文件没有压缩，我会这样做：1234importpysparkaspsspark=ps.sql.SparkSession.builder.master("local[2]").getOrCreate()data=spark.read.csv(fp,schema=SCHEMA,sep="\\t")文件路径fp和模式SCHEMA在别处正确定义。但是，当使用lzo压缩文件时，这将返回一个填充有null值的数据帧。我已经在我的机器上安装了lzop，可以从终端解压缩文件，然后

pyspark apache nbsp section br apache-spark lzo

关于 sql:hive 上下文无法识别 pyspark 中的临时表 – AnalysisException: ‘Table not found’

hivecontextdoesn'trecognizetemptableinpyspark-AnalysisException:'Tablenotfound'我正在使用以本地模式运行的pyspark(1.6.1)。我有一个来自csv文件的数据框，我需要添加dense_rank()列。我知道sqlContext不支持窗口功能，但HiveContext支持。12345hiveContext=HiveContext(sc)df.registerTempTable("visits")visit_number=hiveContext.sql("selectstore_number,"

amp AnalysisException section span class apache-spark hive pyspark sql

关于 sql:hive 上下文无法识别 pyspark 中的临时表 – AnalysisException: ‘Table not found’

hivecontextdoesn'trecognizetemptableinpyspark-AnalysisException:'Tablenotfound'我正在使用以本地模式运行的pyspark(1.6.1)。我有一个来自csv文件的数据框，我需要添加dense_rank()列。我知道sqlContext不支持窗口功能，但HiveContext支持。12345hiveContext=HiveContext(sc)df.registerTempTable("visits")visit_number=hiveContext.sql("selectstore_number,"

amp AnalysisException section span class apache-spark hive pyspark sql

关于scala：存储Spark的dataframe的执行计划

StoreexecutionplanofSpark′sdataframe我目前正在尝试将Spark的数据帧的执行计划存储到HDFS中(通过dataframe.explain(true)命令)我发现的问题是，当我使用explain(true)命令时，我可以通过命令行和日志查看输出，但是如果我创建一个文件(比如说.txt)与数据框的说明文件的内容将显示为空。我认为该问题与Spark的配置有关，但我无法解决在互联网上找到有关此的任何信息(对于那些想了解更多关于使用解释功能执行数据帧的计划的人，请参阅https://jaceklaskowski.gitbooks.io/mastering-apache

dataframe scala span class section apache-spark apache-spark-sql