草庐IT

pyspark-dataframes

全部标签

python - "Failed to locate the winutils binary"但我的 pyspark 仍然有效

在Windows中,当我启动pysparkshell时,出现错误:2019-04-2008:11:34ERRORShell:397-Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.但是,在那个错误之后,我的pysparkshell可以正常启动,并且我可以毫无问题地运行pyspark并在其上运行代码。但是,我每次都会收到此错误,但我不确定如何摆脱它。我已经正确设置了

python - 为什么我在 pyspark 中收集它们时我的 `binaryFiles` 是空的?

我在同一个文件夹中的hdfs上有两个zip文件:/user/path-to-folder-with-zips/。我将其传递给pyspark中的“二进制文件”:zips=sc.binaryFiles('/user/path-to-folder-with-zips/')我正在尝试解压缩zip文件并对其中的文本文件执行一些操作,因此我试图只查看当我尝试处理RDD时的内容。我是这样做的:zips_collected=zips.collect()但是,当我这样做时,它给出了一个空列表:>>zips_collected[]我知道zips不是空的——它们有文本文件。文档here说每个文件都作为单个记

hadoop - 如何在类似于pyspark的java中将parquet文件写入分区?

我可以像这样将parquet文件写入pyspark中的分区:rdd.write.partitionBy("created_year","created_month").parquet("hdfs:///my_file")parquet文件自动分区为created_year,created_month。如何在java中做同样的事情?我在ParquetWriter类中看不到选项。还有其他类可以做到这一点吗?谢谢, 最佳答案 您必须将您的RDD转换为DataFrame,然后调用writeparquet函数。df=sql_context.c

hadoop - 如何更改 pyspark 中的 hdfs block 大小?

我使用pySpark编写parquet文件。我想更改该文件的hdfsblock大小。我这样设置block大小,但它不起作用:sc._jsc.hadoopConfiguration().set("dfs.block.size","128m")这是否必须在启动pySpark作业之前设置?如果可以,怎么做。 最佳答案 尝试通过sc._jsc.hadoopConfiguration()和SparkContext设置它frompysparkimportSparkConf,SparkContextconf=(SparkConf().setMas

hadoop - 如何在使用 pyspark 读取 Parquet 文件时指定模式?

在使用scala或pyspark读取存储在hadoop中的parquet文件时发生错误:#scalavardff=spark.read.parquet("/super/important/df")org.apache.spark.sql.AnalysisException:UnabletoinferschemaforParquet.Itmustbespecifiedmanually.;atorg.apache.spark.sql.execution.datasources.DataSource$$anonfun$8.apply(DataSource.scala:189)atorg.ap

python - PySpark 加载 CSV AttributeError : 'RDD' object has no attribute '_get_object_id'

我正在尝试将CSV文件加载到sparkDataFrame中。这是我到目前为止所做的:#scisanSparkContext.appName="testSpark"master="local"conf=SparkConf().setAppName(appName).setMaster(master)sc=SparkContext(conf=conf)sqlContext=sql.SQLContext(sc)#csvpathtext_file=sc.textFile("hdfs:///path/to/sensordata20171008223515.csv")df=sqlContext.l

python - 将 PySpark DF 写入专用格式的文件

我正在使用PySpark2.1,我需要想出一种方法将我的数据帧写入专门格式的.txt文件;所以不是典型的json或csv,而是CTF格式(对于CNTK)。该文件不能有额外的括号或逗号等。它遵循以下形式:|labelval|featuresvalvalval...val|labelval|featuresvalvalval...val显示这一点的一些代码可能如下所示:l=[('Ankit',25),('Jalfaizy',22),('saurabh',20),('Bala',26)]rdd=sc.parallelize(l)people=rdd.map(lambdax:Row(name=

python - 如何将多列(即时间、年、月和日期)转换为 pyspark 数据框中的日期时间格式

Dataframe有4列year,month,date,hhmmhhmm-小时和分钟连接在一起例如:10:30等于1030dd=spark.createDataFrame([(2019,2,13,1030),(2018,2,14,1000),(2029,12,13,0300)],["Year","month","date","hhmm"])dd.collect()pysparkdataframedd中日期时间格式的预期输出dd.collect()2019-02-1310:30:002018-2-1410:00:002019-12-1303:00:00 最佳答

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点

我在独立模式下运行spark-submit或pyspark时遇到问题,如下所示:spark/bin/pyspark--masterspark://:这通常会使用所有节点(至少在以前的版本中)在UI中创建一个正在运行的Spark应用程序。出于某种原因,这样做只会在主节点上运行它,尽管UI显示所有节点都连接到主节点。从节点上的日志中没有错误。任何人都知道可能出了什么问题?作为引用,我的spark-env.sh具有以下配置:exportHADOOP_CONF_DIR=/mnt/hadoop/etc/hadoopexportSPARK_PUBLIC_DNS=exportSPARK_MASTER

r - 如何使用 SparkR 的 as.DataFrame() 将大型 R data.frames 加载到 Spark 中?

我的目标是将大型Rdata.frame加载到Spark中。data.frame的大小是500万。各种类型的行和7列。一旦加载到R中,这个data.frame占用大约。200MB内存。但是,当我尝试使用as.DataFrame()函数将其加载到Spark中时,Rsession永远被占用,它已经运行了1小时,我不得不取消该操作。详情如下:我正在创建以下数据集以在此示例中使用:n=5e6#setsamplesized上面创建了一个示例data.frame大小,大约200mb:paste0("size:",round(as.numeric(object.size(d))/1000000,1),