PySpark_草庐IT

python - pyspark 在集群上，确保所有节点都被使用

部署信息:"pyspark--masteryarn-client--num-executors16--driver-memory16g--executor-memory2g"我正在将一个100,000行的文本文件(hdfsdfs格式)转换为一个带有corpus=sc.textFile("my_file_name")的RDD对象。当我执行corpus.count()时，我得到了100000。我意识到所有这些步骤都是在主节点上执行的。现在，我的问题是，当我执行诸如new_corpus=corpus.map(some_function)之类的操作时，pyspark是否会自动将作业分配给所有可

有节 pyspark code section corpus python hadoop apache-spark cluster-computing

python - Pyspark sc.textFile() 没有完全加载文件

我从Clouderaquickstartdocker容器上的PythonSpark(v1.6.0)开始。我在/user/root/access_log.txt下的hdfs中成功放置了一个static.txt文件(500mb)。在pyspark中，我尝试使用以下python代码行加载文件:lines=sc.textFile("hdfs://quickstart.cloudera/user/root/access_log.txt")这没有给我任何错误。但是我发现文件没有完全加载。还有..lines.max()虽然hdfs实际上具有正确的文件大小，但未给出文件的正确最后一个元素。这是内存问题

textFile Pyspark code strong section python hadoop apache-spark cloudera

hadoop - PySpark 重新分区 RDD 元素

我有一个spark作业，它从Kafka流中读取数据并为流中的每个RDD执行一个操作。如果RDD不为空，我想把RDD保存到HDFS，但是我想为RDD中的每个元素创建一个文件。我找到了RDD.saveAsTextFile(file_location)将为每个分区创建一个文件，因此我试图更改RDD，使每个分区仅包含一个元素。这是我正在尝试做的一个例子data=sc.parallelize(['1','2','3','4','5','6','7','8','9','0'])data.glom().collect()#Produces[['1','2','3','4','5'],['6','7'

PySpark hadoop 39 data section apache-spark partitioning rdd

python - 找不到 Pyspark 模块

我正在尝试在Yarn中执行一个简单的Pyspark作业。这是代码:frompysparkimportSparkConf,SparkContextconf=(SparkConf().setMaster("yarn-client").setAppName("HDFSFilter").set("spark.executor.memory","1g"))sc=SparkContext(conf=conf)inputFile=sc.textFile("hdfs://myserver:9000/1436304078054.json.gz").cache()matchTerm="spark"numM

Pyspark python spark apache scala hadoop apache-spark hadoop-yarn

apache-spark - 我可以将 pyspark 数据框另存为哪些文件格式？

我想将一个巨大的pyspark数据框保存为一个Hive表。我怎样才能有效地做到这一点？我希望使用pyspark.sql.DataFrameWriter.saveAsTable中的saveAsTable(name,format=None,mode=None,partitionBy=None,**options)。#Let'ssayIhavemydataframe,my_df#AmIabletodothefollowing?my_df.saveAsTable('my_table')我的问题是我可以使用哪些格式，我可以在哪里找到这些信息？OrcSerDe是一个选项吗？我还在学习这个。谢谢。

apache-spark pyspark section apache li hadoop hive hiveql

hadoop - 在 PySpark 中设置 YARN 队列

在PySpark中创建Spark上下文时，我通常使用以下代码:conf=(SparkConf().setMaster("yarn-client").setAppName(appname).set("spark.executor.memory","10g").set("spark.executor.instances","7").set("spark.driver.memory","5g").set("spark.shuffle.service.enabled","true").set("spark.dynamicAllocation.enabled","true").set("spar

中设 PySpark 34 section spark hadoop apache-spark hadoop-yarn

hadoop - 无法让pyspark作业在hadoop集群的所有节点上运行

总结:我无法让我的python-spark作业在我的hadoop集群的所有节点上运行。我已经为hadoop'spark-1.5.2-bin-hadoop2.6'安装了spark。启动javaspark作业时，负载得到分布在所有节点上，当启动pythonspark作业时，只有一个节点承担负载。设置:为4个节点配置的hdfs和yarn:nk01(名称节点)、nk02、nk03、nk04，在xen虚拟服务器上运行版本:jdk1.8.0_66、hadoop-2.7.1、spark-1.5.2-bin-hadoop2.6hadoop安装了所有4个节点spark只安装在nk01上我将一堆Guten

hadoop 有节 strong spark section apache-spark pyspark

hadoop - PySpark 中的.cartesian()

我创建了rdd=sc.parallelize(range(200))。然后我设置rdd2=rdd.cartesian(rdd)。我发现rdd2.count()正如预期的那样是40,000。但是，当我设置rdd3=rdd2.cartesian(rdd)时，rdd3.count()小于20,000。为什么会这样？最佳答案这是一个由SPARK-16589跟踪的错误. 关于hadoop-PySpark中的.cartesian()，我们在StackOverflow上找到一个类似的问题：

cartesian PySpark section code rdd hadoop apache-spark

python - 无法访问 PySpark 中的 RowMatrix 方法 : columnSimilarities(), computeColumnSummaryStatistics()

我正在尝试使用函数columnSimilarities()、computeColumnSummaryStatistics()特别是这篇文章中提到的columnSimilarities()函数:https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html我正在使用来自mlib的稀疏向量列表。sparse_vectors=[]forcust,groupindf.groupby(0):i_v=zip(group[1].values,group[2].values)

computeColumnSummaryStatistics columnSimilarities section blockquote python hadoop apache-spark pyspark bigdata

python - Apache Spark : Error while starting PySpark

在Centos机器上，Pythonv2.6.6和ApacheSparkv1.2.1尝试运行./pyspark时出现以下错误似乎是python的一些问题，但无法弄清楚15/06/1808:11:16INFOspark.SparkContext:SuccessfullystoppedSparkContextTraceback(mostrecentcalllast):File"/usr/lib/spark_1.2.1/spark-1.2.1-bin-hadoop2.4/python/pyspark/shell.py",line45,insc=SparkContext(appName="PyS

starting PySpark python section spark hadoop apache-spark