草庐IT

Pyspark-Cluster

全部标签

hadoop - Pyspark Mac NativeCodeLoader : Unable to load native-hadoop library for your platform. .. 在适用的情况下使用内置 java 类

这会阻止PySpark在JupyterNotebook中正常运行。我知道原生hadoop库仅在*nix平台上受支持。该库不适用于Cygwin或MacOSX平台。我怎样才能正确安装PySpark以在我的Jupyter笔记本中运行 最佳答案 下载hadoop二进制文件(link)并将其放在您的主目录中(您可以根据需要选择不同的hadoop版本并相应地更改后续步骤)使用以下命令将文件夹解压缩到您的主目录中。tar-zxvfhadoop_file_name现在将exportHADOOP_HOME=~/hadoop-2.8.0添加到您的.ba

hadoop 作业与 pyspark 和 oozie 陷入僵局

我正在尝试使用oozie在yarn上运行pyspark,提交工作流后,hadoop作业队列中有2个作业,一个是oozie作业,其应用程序类型为“mapreduce”,另一个作业被触发通过前一个,应用程序类型为“Spark”,当第一个作业正在运行时,第二个作业仍处于“已接受”状态。问题来了,而第一个作业正在等待第二个作业完成继续,第二个是等待第一个完成运行,我可能陷入死锁,我怎么能摆脱这个麻烦,应用程序类型为“mapreduce”的hadoop作业是否与不同应用程序的其他作业并行运行类型?感谢任何建议,谢谢! 最佳答案 请将属性值检查

python - 使用 pyspark 从 Hadoop 中删除文件(查询)

我正在使用Hadoop来存储我的数据-对于某些数据,我正在使用分区,对于某些数据,我没有。我使用pysparkDataFrame类以parquet格式保存数据,如下所示:df=sql_context.read.parquet('/some_path')df.write.mode("append").parquet(parquet_path)我想用pyspark编写一个删除旧数据的脚本,使用类似的方式(我需要在数据框上过滤查询这个旧数据)。我没有在pyspark文档中找到任何内容...有什么办法可以实现吗? 最佳答案 Pyspark主

python - 尝试启动 PySpark 时出现空指针异常

我正在使用以下命令启动pyspark./bin/pyspark--masteryarn--deploy-modeclient--executor-memory5g我得到以下错误15/10/1417:19:15INFOspark.SparkContext:SparkContextalreadystopped.Traceback(mostrecentcalllast):File"/opt/spark-1.5.1/python/pyspark/shell.py",line43,insc=SparkContext(pyFiles=add_files)File"/opt/spark-1.5.1/

hadoop - S3NativeFileSystem 调用是否会在 AWS EMR 4.6.0 上杀死我的 Pyspark 应用程序

当我的Spark应用程序必须从S3访问大量CSV文件(每个~1000@63MB)并将它们通过管道传输到SparkRDD时,它失败了。拆分CSV的实际过程似乎可行,但对S3NativeFileSystem的额外函数调用似乎导致错误和作业崩溃。首先,以下是我的PySpark应用程序:frompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)importtimestartTime=float(time.time

python - 将数据从 pyspark 写入 ElasticSearch

我关注了这个article将一些数据发送到AWSES,我使用了jarelasticsearch-hadoop。这是我的脚本:frompysparkimportSparkContext,SparkConffrompyspark.sqlimportSQLContextif__name__=="__main__":conf=SparkConf().setAppName("WriteToES")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)es_conf={"es.nodes":"https://search-elasticsearchd

python - PySpark 安装错误

我按照包括this、this、this和this在内的各种博客帖子的说明在我的笔记本电脑上安装了pyspark。但是,当我尝试从终端或jupyternotebook使用pyspark时,我不断收到以下错误。我已经安装了问题底部所示的所有必要软件。我已将以下内容添加到我的.bashrcfunctionsjupyter_init(){#Setanaconda3aspythonexportPATH=~/anaconda3/bin:$PATH#Sparkpath(basedonyourcomputer)SPARK_HOME=/opt/sparkexportPATH=$SPARK_HOME:$P

python - 如何从 pyspark 数据帧更快地保存 csv 文件?

我目前在本地Windows10系统上使用pyspark。pyspark代码运行速度非常快,但需要花费大量时间将pyspark数据帧保存为csv格式。我正在将pyspark数据帧转换为pandas,然后将其保存到csv文件。我也尝试过使用write方法来保存csv文件。Full_data.toPandas().to_csv("Level1-{}HourlyAvgData.csv".format(yr),index=False)Full_data.repartition(1).write.format('com.databricks.spark.csv').option("header",

hadoop - 使用 MASTER=yarn-cluster 运行 HiveFromSpark 示例

我正在尝试运行HiveFromSpark我的EMRSpark/Hive集群上的示例。问题使用yarn-client:~/spark/bin/spark-submit--masteryarn-client--num-executors=19--classorg.apache.spark.examples.sql.hive.HiveFromSpark~/spark/lib/spark-examples-1.3.0-hadoop2.4.0.jar就像一个魅力。但是,使用yarn-cluster:~/spark/bin/spark-submit--masteryarn-cluster--num

python - Pyspark java.lang.OutOfMemoryError : Requested array size exceeds VM limit 错误

我正在运行Pyspark作业:spark-submit--masteryarn-client--driver-memory150G--num-executors8--executor-cores4--executor-memory150Gbenchmark_script_1.pyhdfs:///tmp/data/sample150k128hdfs:///tmp/output/sample150k|tee~/output/sample150k.log工作本身非常标准。它只是抓取一些文件并对它们进行计数。:print(str(datetime.now())+"-Ingestingfiles