spark-submit_草庐IT

scala - Spark 流序列化错误

我在spark-streaming应用程序中遇到序列化错误。下面是我的驱动程序代码:packagecom.testimportorg.apache.spark._importorg.apache.spark.streaming._importorg.json.JSONObject;importjava.io.SerializableobjectSparkFillerextendsSerializable{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf().setAppName("SparkFiller").setM

hadoop - 使用 spark thrift 服务的 s3 位置创建/访问配置单元外部表的问题

我已经使用hadoop-credentialapi在jceks文件中配置了s3key(访问key和secretkey)。用于相同的命令如下:hadoop凭据创建fs.s3a.access.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jcekshadoop凭据创建fs.s3a.secret.key-providerjceks://hdfs@nn_hostname/tmp/s3creds_test.jceks然后，我使用beeline打开到SparkThriftServer的连接，并在连接字符串中传递jceks文件路径，如下所

配置单 hadoop strong section jceks apache-spark amazon-s3

hadoop - RM UI 中的 YARN "Memory Used"是 spark-shell 请求的两倍

spark-shell开始使用:spark-shell--masteryarn--executor-memory4G--num-executors100我期望yarn为spark-shell分配大约400GB的内存，但是当我转到RMUI时，它显示“已使用的内存”增加了大约804GB。我正在运行HDP2.5，在yarn-site.xml中将yarn.scheduler.minimum-allocation-mb设置为4096。对这是怎么发生的感到困惑。原来是spark内存开销和yarn内存分配机制的问题，查看:http://www.wdong.org/spark-on-yarn-wher

spark-shell amp section yarn spark hadoop apache-spark hadoop-yarn

python - 如何为 Spark、Python 设置特定的 Hadoop 版本

我需要有关在我的spark配置中设置特定hadoop版本的帮助。我在某处读到您可以使用hadoop.version属性。它没有说明在哪里可以找到它。http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version我需要将其从当前/默认设置为2.8.0。我在PyCharm中编码。请提供帮助，最好提供分步指南。谢谢! 最佳答案对于ApacheHadoop2.7.X及更高版本，您可以像那样构建，因此上述答案是正确的。[./build

何为 python section hadoop version apache-spark pyspark pycharm

hadoop - 无法在 HDP 2.5.0 中对 Oozie 运行 Spark 操作(java.lang.IllegalArgumentException : Invalid ContainerId)

我正在尝试运行一个简单的sparkJava应用程序。我可以在我们的集群中通过spark提交来运行应用程序我的job.properties文件如下:nameNode=hdfs://auper01-01-20-01-0.prod.vroc.com.au:8020jobTracker=auper01-02-10-01-0.prod.vroc.com.au:8050master=yarn-clusterqueueName=default#examplesRoot=examplesoozie.use.system.libpath=trueoozie.wf.application.path=${n

IllegalArgumentException ContainerId spark gt java hadoop apache-spark oozie

hadoop - Spark 作业出错，出现 : Too many elements to create a power set 34

我正在尝试在查询弹性数据的mesos集群中运行一个spark作业，使用esJsonRDD查询如下:FetchingesJsonRDDfromelasticsearchwithcomplexfilteringinSpark，对于少于32个节点的多节点弹性集群运行良好。随着弹性中节点的增加，作业失败并出现以下异常:org.elasticsearch.hadoop.EsHadoopIllegalArgumentException:Toomanyelementstocreateapowerset37如https://github.com/elastic/elasticsearch-hadoop

elements hadoop elasticsearch 39 code apache-spark scalability

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster，当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时，作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请，而不是逐一处理。这有什么配置吗？或者无法在yarn上做到这一点？最佳答案默认情况下，Yarn会一个一个地提交作业。要提交多个作业，您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop spark section yarn stackoverflow hadoop-yarn

scala - 在运行时设置对目录的权限 scala spark

我正在尝试从HDFS上的spark代码中创建一个目录并在其中写入一个文件。但在编写时失败并出现以下错误。Permissiondenied:user=root,access=WRITE,inode="/root/test/_temporary/0":hdfs:hadoop:drwxr-xr-x我们如何在运行时在scala中设置目录的权限？更新我正在使用这些命令来授予对创建的目录的权限。dir.canExecute()dir.canRead()dir.canWrite()dir.setWritable(true,false)dir.setReadable(true,false)dir.se

scala spark section dir strong hadoop apache-spark pyspark spark-dataframe

hadoop - 从 spark master UI 清除 Spark Job 历史记录

我正在处理spark，我想通过清除所有以前失败/完成的作业来清除我的sparkmasterUI。我不知道该怎么做？我试过从hdfs中删除日志，但作业条目仍然显示在UI上。最佳答案您需要重新启动masterspark进程。来自spark的sbin目录，运行./stop-master.sh和./start-master.sh它应该修复。关于hadoop-从sparkmasterUI清除SparkJob历史记录，我们在StackOverflow上找到一个类似的问题：

hadoop master section code apache-spark hadoop-yarn spark-hive

hadoop - 为什么某些工作节点在运行 Spark 应用程序时会占用更多系统 CPU？

我有1个主节点和4个工作节点。我使用Ambari设置集群，所有监控指标都是从其仪表板收集的。Spark在Hadoop之上，所以有了YARN和HDFS。我运行了一个非常简单的字数统计脚本，发现其中一个工作节点完成了最多的工作。字数统计工作分为149个任务。一个节点完成98个任务。这是我计算单词的代码valfile=sc.textFile("/data/2gdata.txt")//readfilefromHDFSvalcounts=file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.co

hadoop Spark section CPU 的 apache-spark hdfs hadoop-yarn cpu-usage