sparking_草庐IT

python - 如何为 Spark、Python 设置特定的 Hadoop 版本

我需要有关在我的spark配置中设置特定hadoop版本的帮助。我在某处读到您可以使用hadoop.version属性。它没有说明在哪里可以找到它。http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version我需要将其从当前/默认设置为2.8.0。我在PyCharm中编码。请提供帮助，最好提供分步指南。谢谢! 最佳答案对于ApacheHadoop2.7.X及更高版本，您可以像那样构建，因此上述答案是正确的。[./build

何为 python section hadoop version apache-spark pyspark pycharm

hadoop - 无法在 HDP 2.5.0 中对 Oozie 运行 Spark 操作(java.lang.IllegalArgumentException : Invalid ContainerId)

我正在尝试运行一个简单的sparkJava应用程序。我可以在我们的集群中通过spark提交来运行应用程序我的job.properties文件如下:nameNode=hdfs://auper01-01-20-01-0.prod.vroc.com.au:8020jobTracker=auper01-02-10-01-0.prod.vroc.com.au:8050master=yarn-clusterqueueName=default#examplesRoot=examplesoozie.use.system.libpath=trueoozie.wf.application.path=${n

IllegalArgumentException ContainerId spark gt java hadoop apache-spark oozie

hadoop - Spark 作业出错，出现 : Too many elements to create a power set 34

我正在尝试在查询弹性数据的mesos集群中运行一个spark作业，使用esJsonRDD查询如下:FetchingesJsonRDDfromelasticsearchwithcomplexfilteringinSpark，对于少于32个节点的多节点弹性集群运行良好。随着弹性中节点的增加，作业失败并出现以下异常:org.elasticsearch.hadoop.EsHadoopIllegalArgumentException:Toomanyelementstocreateapowerset37如https://github.com/elastic/elasticsearch-hadoop

elements hadoop elasticsearch 39 code apache-spark scalability

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster，当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时，作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请，而不是逐一处理。这有什么配置吗？或者无法在yarn上做到这一点？最佳答案默认情况下，Yarn会一个一个地提交作业。要提交多个作业，您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop spark section yarn stackoverflow hadoop-yarn

scala - 在运行时设置对目录的权限 scala spark

我正在尝试从HDFS上的spark代码中创建一个目录并在其中写入一个文件。但在编写时失败并出现以下错误。Permissiondenied:user=root,access=WRITE,inode="/root/test/_temporary/0":hdfs:hadoop:drwxr-xr-x我们如何在运行时在scala中设置目录的权限？更新我正在使用这些命令来授予对创建的目录的权限。dir.canExecute()dir.canRead()dir.canWrite()dir.setWritable(true,false)dir.setReadable(true,false)dir.se

scala spark section dir strong hadoop apache-spark pyspark spark-dataframe

hadoop - 从 spark master UI 清除 Spark Job 历史记录

我正在处理spark，我想通过清除所有以前失败/完成的作业来清除我的sparkmasterUI。我不知道该怎么做？我试过从hdfs中删除日志，但作业条目仍然显示在UI上。最佳答案您需要重新启动masterspark进程。来自spark的sbin目录，运行./stop-master.sh和./start-master.sh它应该修复。关于hadoop-从sparkmasterUI清除SparkJob历史记录，我们在StackOverflow上找到一个类似的问题：

hadoop master section code apache-spark hadoop-yarn spark-hive

hadoop - 为什么某些工作节点在运行 Spark 应用程序时会占用更多系统 CPU？

我有1个主节点和4个工作节点。我使用Ambari设置集群，所有监控指标都是从其仪表板收集的。Spark在Hadoop之上，所以有了YARN和HDFS。我运行了一个非常简单的字数统计脚本，发现其中一个工作节点完成了最多的工作。字数统计工作分为149个任务。一个节点完成98个任务。这是我计算单词的代码valfile=sc.textFile("/data/2gdata.txt")//readfilefromHDFSvalcounts=file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.co

hadoop Spark section CPU 的 apache-spark hdfs hadoop-yarn cpu-usage

hadoop - Windows 上的 Spark - winutils 到底是什么，我们为什么需要它？

我很好奇!据我所知，HDFS需要数据节点进程才能运行，这就是它只在服务器上运行的原因。Spark可以在本地运行，但需要winutils.exe，它是Hadoop的一个组件。但它到底做了什么？为什么我不能在Windows上运行Hadoop，但是我可以运行基于Hadoop构建的Spark？最佳答案我至少知道一种用法，它用于在Windows操作系统上运行shell命令。你可以在org.apache.hadoop.util.Shell中找到它，其他模块依赖于这个类并使用它的方法，例如getGetPermissionCommand()方法

winutils Windows section WINUTILS_FAILURE hadoop apache-spark

amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3

我正在尝试从pyspark(版本2.2.0)访问s3(s3a协议(protocol))，但我遇到了一些困难。我正在使用Hadoop和AWSSDK包。pyspark--packagescom.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2这是我的代码:sc._jsc.hadoopConfiguration().set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")sc._jsc.hadoopConfiguration().set("f

amazon-web-services services java apache at hadoop apache-spark amazon-s3 pyspark

mysql - Apache spark如何计算分区以及分区在executor中是如何处理的

我需要一些帮助来理解Spark如何决定分区的数量以及它们在执行程序中是如何处理的，我很抱歉这个问题，因为我知道这是一个重复的问题，但即使在阅读了很多文章之后我仍然不是能够理解我正在放置一个我目前正在处理的现实生活中的用例，以及我的spark提交配置和集群配置。我的硬件配置:3节点机器，总Vcores=30，总内存=320GB。spark-submitconfig:spark-submit\--verbose\--masteryarn\--deploy-modecluster\--num-executors1\--executor-memory3g\--executor-cores2

何处 executor code spark section mysql hadoop apache-spark spark-dataframe