pyspark-dataframes

python - "Failed to locate the winutils binary"但我的 pyspark 仍然有效

在Windows中，当我启动pysparkshell时，出现错误:2019-04-2008:11:34ERRORShell:397-Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.但是，在那个错误之后，我的pysparkshell可以正常启动，并且我可以毫无问题地运行pyspark并在其上运行代码。但是，我每次都会收到此错误，但我不确定如何摆脱它。我已经正确设置了

python - 为什么我在 pyspark 中收集它们时我的 `binaryFiles` 是空的？

我在同一个文件夹中的hdfs上有两个zip文件:/user/path-to-folder-with-zips/。我将其传递给pyspark中的“二进制文件”:zips=sc.binaryFiles('/user/path-to-folder-with-zips/')我正在尝试解压缩zip文件并对其中的文本文件执行一些操作，因此我试图只查看当我尝试处理RDD时的内容。我是这样做的:zips_collected=zips.collect()但是，当我这样做时，它给出了一个空列表:>>zips_collected[]我知道zips不是空的——它们有文本文件。文档here说每个文件都作为单个记

binaryFiles pyspark data code section python hadoop zip

hadoop - 如何在类似于pyspark的java中将parquet文件写入分区？

我可以像这样将parquet文件写入pyspark中的分区:rdd.write.partitionBy("created_year","created_month").parquet("hdfs:///my_file")parquet文件自动分区为created_year，created_month。如何在java中做同样的事情？我在ParquetWriter类中看不到选项。还有其他类可以做到这一点吗？谢谢，最佳答案您必须将您的RDD转换为DataFrame，然后调用writeparquet函数。df=sql_context.c

何在 pyspark section parquet created hadoop

hadoop - 如何更改 pyspark 中的 hdfs block 大小？

我使用pySpark编写parquet文件。我想更改该文件的hdfsblock大小。我这样设置block大小，但它不起作用:sc._jsc.hadoopConfiguration().set("dfs.block.size","128m")这是否必须在启动pySpark作业之前设置？如果可以，怎么做。最佳答案尝试通过sc._jsc.hadoopConfiguration()和SparkContext设置它frompysparkimportSparkConf,SparkContextconf=(SparkConf().setMas

pyspark hadoop section 34 hadoopConfiguration apache-spark hdfs apache-spark-1.6

hadoop - 如何在使用 pyspark 读取 Parquet 文件时指定模式？

在使用scala或pyspark读取存储在hadoop中的parquet文件时发生错误:#scalavardff=spark.read.parquet("/super/important/df")org.apache.spark.sql.AnalysisException:UnabletoinferschemaforParquet.Itmustbespecifiedmanually.;atorg.apache.spark.sql.execution.datasources.DataSource$$anonfun$8.apply(DataSource.scala:189)atorg.ap

何在 Parquet DataSource scala DataFrameReader hadoop apache-spark pyspark

python - PySpark 加载 CSV AttributeError : 'RDD' object has no attribute '_get_object_id'

我正在尝试将CSV文件加载到sparkDataFrame中。这是我到目前为止所做的:#scisanSparkContext.appName="testSpark"master="local"conf=SparkConf().setAppName(appName).setMaster(master)sc=SparkContext(conf=conf)sqlContext=sql.SQLContext(sc)#csvpathtext_file=sc.textFile("hdfs:///path/to/sensordata20171008223515.csv")df=sqlContext.l

amp object section 34 39 python csv hadoop apache-spark

python - 将 PySpark DF 写入专用格式的文件

我正在使用PySpark2.1，我需要想出一种方法将我的数据帧写入专门格式的.txt文件；所以不是典型的json或csv，而是CTF格式(对于CNTK)。该文件不能有额外的括号或逗号等。它遵循以下形式:|labelval|featuresvalvalval...val|labelval|featuresvalvalval...val显示这一点的一些代码可能如下所示:l=[('Ankit',25),('Jalfaizy',22),('saurabh',20),('Bala',26)]rdd=sc.parallelize(l)people=rdd.map(lambdax:Row(name=

PySpark python code section 39 hadoop apache-spark cntk

python - 如何将多列(即时间、年、月和日期)转换为 pyspark 数据框中的日期时间格式

Dataframe有4列year,month,date,hhmmhhmm-小时和分钟连接在一起例如:10:30等于1030dd=spark.createDataFrame([(2019,2,13,1030),(2018,2,14,1000),(2029,12,13,0300)],["Year","month","date","hhmm"])dd.collect()pysparkdataframedd中日期时间格式的预期输出dd.collect()2019-02-1310:30:002018-2-1410:00:002019-12-1303:00:00 最佳答

多列即时 section code 34 python python-3.x apache-spark pyspark apache-spark-sql

python - Spark 1.5.2 + Hadoop 2.6.2 spark-submit 和 pyspark 不使用独立的所有节点

我在独立模式下运行spark-submit或pyspark时遇到问题，如下所示:spark/bin/pyspark--masterspark://:这通常会使用所有节点(至少在以前的版本中)在UI中创建一个正在运行的Spark应用程序。出于某种原因，这样做只会在主节点上运行它，尽管UI显示所有节点都连接到主节点。从节点上的日志中没有错误。任何人都知道可能出了什么问题？作为引用，我的spark-env.sh具有以下配置:exportHADOOP_CONF_DIR=/mnt/hadoop/etc/hadoopexportSPARK_PUBLIC_DNS=exportSPARK_MASTER

有节 spark-submit spark INFO hadoop python apache-spark pyspark

r - 如何使用 SparkR 的 as.DataFrame() 将大型 R data.frames 加载到 Spark 中？

我的目标是将大型Rdata.frame加载到Spark中。data.frame的大小是500万。各种类型的行和7列。一旦加载到R中，这个data.frame占用大约。200MB内存。但是，当我尝试使用as.DataFrame()函数将其加载到Spark中时，Rsession永远被占用，它已经运行了1小时，我不得不取消该操作。详情如下:我正在创建以下数据集以在此示例中使用:n=5e6#setsamplesized上面创建了一个示例data.frame大小，大约200mb:paste0("size:",round(as.numeric(object.size(d))/1000000,1),

DataFrame 大型 sample replace 34 r hadoop apache-spark sparkr