PySpark3

apache-spark - 我可以将 pyspark 数据框另存为哪些文件格式？

我想将一个巨大的pyspark数据框保存为一个Hive表。我怎样才能有效地做到这一点？我希望使用pyspark.sql.DataFrameWriter.saveAsTable中的saveAsTable(name,format=None,mode=None,partitionBy=None,**options)。#Let'ssayIhavemydataframe,my_df#AmIabletodothefollowing?my_df.saveAsTable('my_table')我的问题是我可以使用哪些格式，我可以在哪里找到这些信息？OrcSerDe是一个选项吗？我还在学习这个。谢谢。

hadoop - 在 PySpark 中设置 YARN 队列

在PySpark中创建Spark上下文时，我通常使用以下代码:conf=(SparkConf().setMaster("yarn-client").setAppName(appname).set("spark.executor.memory","10g").set("spark.executor.instances","7").set("spark.driver.memory","5g").set("spark.shuffle.service.enabled","true").set("spark.dynamicAllocation.enabled","true").set("spar

中设 PySpark 34 section spark hadoop apache-spark hadoop-yarn

hadoop - 无法让pyspark作业在hadoop集群的所有节点上运行

总结:我无法让我的python-spark作业在我的hadoop集群的所有节点上运行。我已经为hadoop'spark-1.5.2-bin-hadoop2.6'安装了spark。启动javaspark作业时，负载得到分布在所有节点上，当启动pythonspark作业时，只有一个节点承担负载。设置:为4个节点配置的hdfs和yarn:nk01(名称节点)、nk02、nk03、nk04，在xen虚拟服务器上运行版本:jdk1.8.0_66、hadoop-2.7.1、spark-1.5.2-bin-hadoop2.6hadoop安装了所有4个节点spark只安装在nk01上我将一堆Guten

hadoop 有节 strong spark section apache-spark pyspark

hadoop - PySpark 中的.cartesian()

我创建了rdd=sc.parallelize(range(200))。然后我设置rdd2=rdd.cartesian(rdd)。我发现rdd2.count()正如预期的那样是40,000。但是，当我设置rdd3=rdd2.cartesian(rdd)时，rdd3.count()小于20,000。为什么会这样？最佳答案这是一个由SPARK-16589跟踪的错误. 关于hadoop-PySpark中的.cartesian()，我们在StackOverflow上找到一个类似的问题：

cartesian PySpark section code rdd hadoop apache-spark

python - 无法访问 PySpark 中的 RowMatrix 方法 : columnSimilarities(), computeColumnSummaryStatistics()

我正在尝试使用函数columnSimilarities()、computeColumnSummaryStatistics()特别是这篇文章中提到的columnSimilarities()函数:https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html我正在使用来自mlib的稀疏向量列表。sparse_vectors=[]forcust,groupindf.groupby(0):i_v=zip(group[1].values,group[2].values)

computeColumnSummaryStatistics columnSimilarities section blockquote python hadoop apache-spark pyspark bigdata

python - Apache Spark : Error while starting PySpark

在Centos机器上，Pythonv2.6.6和ApacheSparkv1.2.1尝试运行./pyspark时出现以下错误似乎是python的一些问题，但无法弄清楚15/06/1808:11:16INFOspark.SparkContext:SuccessfullystoppedSparkContextTraceback(mostrecentcalllast):File"/usr/lib/spark_1.2.1/spark-1.2.1-bin-hadoop2.4/python/pyspark/shell.py",line45,insc=SparkContext(appName="PyS

starting PySpark python section spark hadoop apache-spark

hadoop - pyspark.sql.utils.IllegalArgumentException : u'java.net.UnknownHostException: 用户'

我是Pyspark的新手，我正在尝试做一个简单的计数。但是它给了我这个错误。文本文件在hdfs中。代码:>>>mydata=sc.textFile("hdfs://user/poem.txt")>>>mydata.count()错误:Traceback(mostrecentcalllast):File"",line1,inFile"/usr/local/lib/spark-2.0.1-bin-hadoop2.7/python/pyspark/rdd.py",line1008,incountreturnself.mapPartitions(lambdai:[sum(1for_ini)])

IllegalArgumentException UnknownHostException pyspark 34 python hadoop apache-spark

python-2.7 - Pyspark 应用程序仅部分利用 dataproc 集群资源

我的pyspark应用程序在106,36MB数据集(817.270条记录)上运行UDF，使用常规pythonlambda函数需要大约100小时。我生成了一个GoogleDataproc集群，其中包含20个工作节点，每个节点有8个vCPU。但是，执行时总共只使用了3个节点和3个vCPU。显然，我希望集群使用我提供的所有资源。我生成的数据帧的默认分区数是8。我尝试将其重新分区为100，但集群仍然只使用3个节点和3个vCPU。另外，当我运行一个命令来检查spark看到的执行者数量时，它只有3个。这是执行的pyspark代码:frompyspark.sql.typesimportStringT

dataproc Pyspark customer_names customer section python-2.7 apache-spark hadoop google-cloud-dataproc

python - pyspark - 多个输入文件到一个 RDD 和一个输出文件

我在Python中有一个字数统计，我想在Spark上运行多个文本文件并获得一个输出文件，因此所有文件中的字数都被计算在内。我尝试了一些解决方案，例如找到的解决方案here和here,但它仍然给出与输入文件数量相同的输出文件数量。rdd=sc.textFile("file:///path/*.txt")input=sc.textFile(join(rdd))或rdd=sc.textFile("file:///path/f0.txt,file:///path/f1.txt,...")rdds=Seq(rdd)input=sc.textFile(','.join(rdds))或rdd=sc.

pyspark python code section textFile hadoop apache-spark mapreduce

java - PySpark:无法创建 SparkSession。(Java 网关错误)

我已经在Windows上安装了PySpark，直到昨天才出现问题。我正在使用windows10、PySpark版本2.3.3(预构建版本)、java版本“1.8.0_201”。昨天，当我尝试创建一个sparksession时，我遇到了以下错误。ExceptionTraceback(mostrecentcalllast)in---->1spark=SparkSession.builder.appName("Hello").master("local").getOrCreate()C:\spark-2.3.3-bin-hadoop2.7\python\pyspark\sql\session

SparkSession PySpark gateway SparkContext java apache-spark hadoop apache-spark-standalone

35 36 373839 40 41