草庐IT

spark-submit

全部标签

hadoop - Windows 上的 Spark - winutils 到底是什么,我们为什么需要它?

我很好奇!据我所知,HDFS需要数据节点进程才能运行,这就是它只在服务器上运行的原因。Spark可以在本地运行,但需要winutils.exe,它是Hadoop的一个组件。但它到底做了什么?为什么我不能在Windows上运行Hadoop,但是我可以运行基于Hadoop构建的Spark? 最佳答案 我至少知道一种用法,它用于在Windows操作系统上运行shell命令。你可以在org.apache.hadoop.util.Shell中找到它,其他模块依赖于这个类并使用它的方法,例如getGetPermissionCommand()方法

amazon-web-services - 使用 Hadoop 版本 2.7.2 从 Spark 使用 S3a 协议(protocol)访问 S3

我正在尝试从pyspark(版本2.2.0)访问s3(s3a协议(protocol)),但我遇到了一些困难。我正在使用Hadoop和AWSSDK包。pyspark--packagescom.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2这是我的代码:sc._jsc.hadoopConfiguration().set("fs.s3a.impl","org.apache.hadoop.fs.s3a.S3AFileSystem")sc._jsc.hadoopConfiguration().set("f

mysql - Apache spark如何计算分区以及分区在executor中是如何处理的

我需要一些帮助来理解Spark如何决定分区的数量以及它们在执行程序中是如何处理的,我很抱歉这个问题,因为我知道这是一个重复的问题,但即使在阅读了很多文章之后我仍然不是能够理解我正在放置一个我目前正在处理的现实生活中的用例,以及我的spark提交配置和集群配置。我的硬件配置:3节点机器,总Vcor​​es=30,总内存=320GB。spark-submitconfig:spark-submit\--verbose\--masteryarn\--deploy-modecluster\--num-executors1\--executor-memory3g\--executor-cores2

scala - java.lang.NoSuchMethodError 当 rdd.saveAsTextFile 由 spark-shell

parallelize整数并尝试保存为文本文件,如下所示:scala>valtest=sc.parallelize(List(12,2,3,4))test:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[0]atparallelizeat:24另存为文本文件scala>test.saveAsTextFile("/test")如下所示的错误堆栈跟踪:java.lang.NoSuchMethodError:org.apache.hadoop.mapred.TaskID.(Lorg/apache/hadoop/mapreduce/Job

python - 如何在 spark 中使用 transform python udf 执行 hql 脚本?

我是通过POC激发和学习的新手。作为此POC的一部分,我正在尝试直接执行hql文件,该文件具有transform关键字以使用pythonudf。我已经在CLI“hive-ffilename.hql”中测试了hql脚本,它工作正常。我在spark-sql中尝试过相同的脚本,但它因hdfspathnotfound错误而失败。我尝试以如下不同的方式提供hdfs路径,但都不起作用"/test/scripts/test.hql""hdfs://test.net:8020/test/scripts/test.hql""hdfs:///test.net:8020/test/scripts/test.

hadoop - spark2-shell 中的 Log4j

我正在通过spark2-shell-i选项运行其中一个spark脚本。我想使用log4j框架将生成的日志重定向到一个文件。我曾经运行的命令:spark2-shell--masteryarn--deploy-modeclient-iaudit.scala--confspark.driver.args="PRODsample.txt"--files/bigdata/datalakes/app/log/log4j.properties#log4j.properties--confspark.driver.extraJavaOptions='-Dlog4j.configuration=file

hadoop - log4j.properties 过滤掉 Spark 和 YARN 日志

大家好,大家有一个关于ApacheSpark中的log4j的问题。在Sparklog4j中,如果我们使用“log4j.rootCategory=WARN”,这意味着它将过滤掉所有警告日志,但现在如果我只想过滤掉“Spark”和“YARN”日志,配置应该如何?log4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.

java - 如何组织 Apache Spark 项目

我是Spark的新手,我想了解如何最好地设置项目。我将使用Maven进行构建,包括测试。我编写了我的第一个Spark应用程序,但要在开发过程中启动它,我必须以本地模式运行:SparkSessionspark=SparkSession.builder().appName("RDDTest").master("local").getOrCreate();但是,如果我想将它提交到集群,它仍将以我不希望的本地模式运行。所以我必须在部署之前更改代码,构建jar并将其提交到集群。显然这不是最好的方法。我想知道最佳做法是什么?您是否以某种方式外部化了主URL? 最佳答案

python - 尝试从 Jupyter Notebook 使用 Spark 访问 Google Cloud Bigtable 时出现区域错误

我正在尝试从运行PySpark内核的JupyterNotebook中运行对GoogleCloudBigtable的并行访问。我以http://ec2-54-66-129-240.ap-southeast-2.compute.amazonaws.com/httrack/docs/cloud.google.com/dataproc/examples/cloud-bigtable-example.html为例我正在使用我的特定项目/区域/集群/表名称。身份验证通过在spark上下文中广播的服务帐户凭据进行。jconf={"hbase.client.connection.impl":"com.

hadoop - 基于在 spark 中创建的零件文件数量进行性能调整

以下是我工作的阶段:第1阶段-进行一些计算并将临时数据保存到文件中。将在流程中保存和读取多个临时数据帧。第2阶段-读取临时数据并进行一些其他计算并将其存储到最终数据文件中。注意:我保留了多个临时文件,因为我无法将它们保存在内存中,因为数据很大。(8400万行,200万个不同的主键kindoff值)我使用coleasce(n)或repartition(n),其中n是一个很大的数字,例如:200。现在这会导致在输出中为我保留的每个临时数据创建200个文件。我知道coalesce/repartition对于写性能来说是一项代价高昂的工作。但是当我使用n=200时,我确实获得了比n=50时更好