草庐IT

spark-submit

全部标签

scala - Spark 流序列化错误

我在spark-streaming应用程序中遇到序列化错误。下面是我的驱动程序代码:packagecom.testimportorg.apache.spark._importorg.apache.spark.streaming._importorg.json.JSONObject;importjava.io.SerializableobjectSparkFillerextendsSerializable{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf().setAppName("SparkFiller").setM

hadoop - 使用 spark thrift 服务的 s3 位置创建/访问配置单元外部表的问题

我已经使用hadoop-credentialapi在jceks文件中配置了s3key(访问key和secretkey)。用于相同的命令如下:hadoop凭据创建fs.s3a.access.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jcekshadoop凭据创建fs.s3a.secret.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jceks然后,我使用beeline打开到SparkThriftServer的连接,并在连接字符串中传递jceks文件路径,如下所

hadoop - RM UI 中的 YARN "Memory Used"是 spark-shell 请求的两倍

spark-shell开始使用:spark-shell--masteryarn--executor-memory4G--num-executors100我期望yarn为spark-shell分配大约400GB的内存,但是当我转到RMUI时,它显示“已使用的内存”增加了大约804GB。我正在运行HDP2.5,在yarn-site.xml中将yarn.scheduler.minimum-allocation-mb设置为4096。对这是怎么发生的感到困惑。原来是spark内存开销和yarn内存分配机制的问题,查看:http://www.wdong.org/spark-on-yarn-wher

python - 如何为 Spark、Python 设置特定的 Hadoop 版本

我需要有关在我的spark配置中设置特定hadoop版本的帮助。我在某处读到您可以使用hadoop.version属性。它没有说明在哪里可以找到它。http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version我需要将其从当前/默认设置为2.8.0。我在PyCharm中编码。请提供帮助,最好提供分步指南。谢谢! 最佳答案 对于ApacheHadoop2.7.X及更高版本,您可以像那样构建,因此上述答案是正确的。[./build

hadoop - 无法在 HDP 2.5.0 中对 Oozie 运行 Spark 操作(java.lang.IllegalArgumentException : Invalid ContainerId)

我正在尝试运行一个简单的sparkJava应用程序。我可以在我们的集群中通过spark提交来运行应用程序我的job.properties文件如下:nameNode=hdfs://auper01-01-20-01-0.prod.vroc.com.au:8020jobTracker=auper01-02-10-01-0.prod.vroc.com.au:8050master=yarn-clusterqueueName=default#examplesRoot=examplesoozie.use.system.libpath=trueoozie.wf.application.path=${n

hadoop - Spark 作业出错,出现 : Too many elements to create a power set 34

我正在尝试在查询弹性数据的mesos集群中运行一个spark作业,使用esJsonRDD查询如下:FetchingesJsonRDDfromelasticsearchwithcomplexfilteringinSpark,对于少于32个节点的多节点弹性集群运行良好。随着弹性中节点的增加,作业失败并出现以下异常:org.elasticsearch.hadoop.EsHadoopIllegalArgumentException:Toomanyelementstocreateapowerset37如https://github.com/elastic/elasticsearch-hadoop

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster,当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时,作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请,而不是逐一处理。这有什么配置吗?或者无法在yarn上做到这一点? 最佳答案 默认情况下,Yarn会一个一个地提交作业。要提交多个作业,您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

scala - 在运行时设置对目录的权限 scala spark

我正在尝试从HDFS上的spark代码中创建一个目录并在其中写入一个文件。但在编写时失败并出现以下错误。Permissiondenied:user=root,access=WRITE,inode="/root/test/_temporary/0":hdfs:hadoop:drwxr-xr-x我们如何在运行时在scala中设置目录的权限?更新我正在使用这些命令来授予对创建的目录的权限。dir.canExecute()dir.canRead()dir.canWrite()dir.setWritable(true,false)dir.setReadable(true,false)dir.se

hadoop - 从 spark master UI 清除 Spark Job 历史记录

我正在处理spark,我想通过清除所有以前失败/完成的作业来清除我的sparkmasterUI。我不知道该怎么做?我试过从hdfs中删除日志,但作业条目仍然显示在UI上。 最佳答案 您需要重新启动masterspark进程。来自spark的sbin目录,运行./stop-master.sh和./start-master.sh它应该修复。 关于hadoop-从sparkmasterUI清除SparkJob历史记录,我们在StackOverflow上找到一个类似的问题:

hadoop - 为什么某些工作节点在运行 Spark 应用程序时会占用更多系统 CPU?

我有1个主节点和4个工作节点。我使用Ambari设置集群,所有监控指标都是从其仪表板收集的。Spark在Hadoop之上,所以有了YARN和HDFS。我运行了一个非常简单的字数统计脚本,发现其中一个工作节点完成了最多的工作。字数统计工作分为149个任务。一个节点完成98个任务。这是我计算单词的代码valfile=sc.textFile("/data/2gdata.txt")//readfilefromHDFSvalcounts=file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.co