PySpark3_草庐IT

MongoDB pyspark 连接器问题，[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗？详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell，然后导入pymongo_spark，最后连接到数据库；但是，当我尝试打印“helloworld”时，由于permissiondenied'/home/.cache'问题，python无法

python - 在 PySpark 中使用 rdd.map 对字符串进行 Unpickling 和编码

我需要将代码从PySpark1.3移植到2.3(也仅在Python2.7上)并且我在rdd上有以下映射转换:importcPickleaspickleimportbase64path="my_filename"my_rdd="rddwithdata"#pyspark.rdd.PipelinedRDD()#savingRDDtoafilebutfirstencodingeverythingmy_rdd.map(lambdaline:base64.b64encode(pickle.dumps(line))).saveAsTextFile(path)#anothermy_rdd.mapdoi

Unpickling PySpark section rdd code python hadoop encoding

apache-spark - 无法通过 PySpark 访问 Hive

我是Hadoop/Spark/Hive新手!我创建了一个在本地运行的单节点Linux(Ubuntu18.04.1LTS)虚拟机；Hadoop3.1.0；星火:Spark2.3.1，hive:Hive-3.0.0我的Hive使用标准的DerbyDB，我可以通过终端访问Hive并创建数据库和表，然后查询这些表。我的metastore_db位于~/hivemetastore/metastore_db我还创建了以下内容:hadoopfs-mkdir-p/user/hive/仓库hadoopfs-mkdir-p/tmp/hive(注意-我在$HIVE_HOME/conf或$SPARK_HOME/

apache-spark PySpark section hadoop hive

python - "Failed to locate the winutils binary"但我的 pyspark 仍然有效

在Windows中，当我启动pysparkshell时，出现错误:2019-04-2008:11:34ERRORShell:397-Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.但是，在那个错误之后，我的pysparkshell可以正常启动，并且我可以毫无问题地运行pyspark并在其上运行代码。但是，我每次都会收到此错误，但我不确定如何摆脱它。我已经正确设置了

amp winutils hadoop section python windows pyspark

python - 为什么我在 pyspark 中收集它们时我的 `binaryFiles` 是空的？

我在同一个文件夹中的hdfs上有两个zip文件:/user/path-to-folder-with-zips/。我将其传递给pyspark中的“二进制文件”:zips=sc.binaryFiles('/user/path-to-folder-with-zips/')我正在尝试解压缩zip文件并对其中的文本文件执行一些操作，因此我试图只查看当我尝试处理RDD时的内容。我是这样做的:zips_collected=zips.collect()但是，当我这样做时，它给出了一个空列表:>>zips_collected[]我知道zips不是空的——它们有文本文件。文档here说每个文件都作为单个记

binaryFiles pyspark data code section python hadoop zip

hadoop - 如何在类似于pyspark的java中将parquet文件写入分区？

我可以像这样将parquet文件写入pyspark中的分区:rdd.write.partitionBy("created_year","created_month").parquet("hdfs:///my_file")parquet文件自动分区为created_year，created_month。如何在java中做同样的事情？我在ParquetWriter类中看不到选项。还有其他类可以做到这一点吗？谢谢，最佳答案您必须将您的RDD转换为DataFrame，然后调用writeparquet函数。df=sql_context.c

何在 pyspark section parquet created hadoop

hadoop - 如何更改 pyspark 中的 hdfs block 大小？

我使用pySpark编写parquet文件。我想更改该文件的hdfsblock大小。我这样设置block大小，但它不起作用:sc._jsc.hadoopConfiguration().set("dfs.block.size","128m")这是否必须在启动pySpark作业之前设置？如果可以，怎么做。最佳答案尝试通过sc._jsc.hadoopConfiguration()和SparkContext设置它frompysparkimportSparkConf,SparkContextconf=(SparkConf().setMas

pyspark hadoop section 34 hadoopConfiguration apache-spark hdfs apache-spark-1.6

hadoop - 如何在使用 pyspark 读取 Parquet 文件时指定模式？

在使用scala或pyspark读取存储在hadoop中的parquet文件时发生错误:#scalavardff=spark.read.parquet("/super/important/df")org.apache.spark.sql.AnalysisException:UnabletoinferschemaforParquet.Itmustbespecifiedmanually.;atorg.apache.spark.sql.execution.datasources.DataSource$$anonfun$8.apply(DataSource.scala:189)atorg.ap

何在 Parquet DataSource scala DataFrameReader hadoop apache-spark pyspark

python - PySpark 加载 CSV AttributeError : 'RDD' object has no attribute '_get_object_id'

我正在尝试将CSV文件加载到sparkDataFrame中。这是我到目前为止所做的:#scisanSparkContext.appName="testSpark"master="local"conf=SparkConf().setAppName(appName).setMaster(master)sc=SparkContext(conf=conf)sqlContext=sql.SQLContext(sc)#csvpathtext_file=sc.textFile("hdfs:///path/to/sensordata20171008223515.csv")df=sqlContext.l

amp object section 34 39 python csv hadoop apache-spark

python - 将 PySpark DF 写入专用格式的文件

我正在使用PySpark2.1，我需要想出一种方法将我的数据帧写入专门格式的.txt文件；所以不是典型的json或csv，而是CTF格式(对于CNTK)。该文件不能有额外的括号或逗号等。它遵循以下形式:|labelval|featuresvalvalval...val|labelval|featuresvalvalval...val显示这一点的一些代码可能如下所示:l=[('Ankit',25),('Jalfaizy',22),('saurabh',20),('Bala',26)]rdd=sc.parallelize(l)people=rdd.map(lambdax:Row(name=

PySpark python code section 39 hadoop apache-spark cntk