草庐IT

spark-submit

全部标签

apache-spark - 如何将托管在 HDFS 中的配置文件传递给 Spark 应用程序?

我正在使用SparkStructuredStreaming。另外,我正在使用Scala。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如;spark_job.conf(HOCON)spark{appName:"",master:"",shuffle.size:4etc..}kafkaSource{servers:"",topic:"",etc..}redisSink{host:"",port:999,timeout:2000,checkpointLocation:"hdfslocation",etc..}如何将它传递给Spark应用程序?我如何在Spark中

scala - 内存不足异常或工作节点在 spark scala 作业期间丢失

我正在使用spark-shell执行一个spark-scala作业,我面临的问题是,在最后阶段和最终映射器结束时,就像在第5阶段,它分配50并很快完成49,在第50个它需要5分钟,并说内存不足并失败。我正在使用SPARK_MAJOR_VERSION=2我正在使用下面的命令spark-shell--masteryarn--confspark.driver.memory=30G--confspark.executor.memory=40G--confspark.shuffle.service.enabled=true--confspark.dynamicAllocation.enabled

apache-spark - 如何在 Spark 中使用 ASCII 函数

我需要帮助使用scala来使用Spark函数ASCII(sparkSQl字符串函数)importorg.apache.spark.sql.SparkSessionimportspark.implicits._importorg.apache.spark.sql.functionsvala=sc.parallelize(Array("Santosh","Adithya"))selectascii('Santosh')我需要santosh的ascii值和rdda的ascii值 最佳答案 ascii是spark-sqlapi的一部分,只能

apache-spark - 将 JSON 字符串列拆分为多列

我正在寻找一种通用解决方案,以将所有json字段提取为JSON字符串列中的列。df=spark.read.load(path)df.show()'path'中文件的文件格式为parquet示例数据|id|json_data|1|{"name":"abc","depts":["dep01","dep02"]}|2|{"name":"xyz","depts":["dep03"],"sal":100}|3|{"name":"pqr","depts":["dep02"],"address":{"city":"SF","state":"CA"}}预期输出|id|name|depts|sal|ad

hadoop - 使用 globStatus 和 Google Cloud Storage 存储桶作为输入时无法运行 Spark 作业

我正在使用Spark1.1。我有一个Spark作业,它只在存储桶下寻找特定模式的文件夹(即以...开头的文件夹),并且应该只处理那些。我通过执行以下操作实现了这一点:FileSystemfs=FileSystem.get(newConfiguration(true));FileStatus[]statusArr=fs.globStatus(newPath(inputPath));ListstatusList=Arrays.asList(statusArr);ListpathsStr=convertFileStatusToPath(statusList);JavaRDDpaths=sc.

scala - 使用 Scala 在 Spark 中创建映射值

我是spark-scala开发的新手。我正在尝试使用scala在spark中创建映射值,但出现类型不匹配错误。scala>valnums=sc.parallelize(Map("red"->"#FF0000","azure"->"#F0FFFF","peru"->"#CD853F")):21:error:typemismatch;found:scala.collection.immutable.Map[String,String]required:Seq[?]Erroroccurredinanapplicationinvolvingdefaultarguments.valnums=sc

python - Spark Python提交报错: File does not exist: pyspark. zip

我正在尝试在yarn-cluster模式下提交pythonspark应用程序。Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--num-executors",sparkConfig.getString("spark.num-executors"),"python/app.py")!我遇到以下错误,D

hadoop - Apache Spark 和 Apache Arrow 有什么区别?

ApacheArrow和ApacheSpark之间有什么区别?ApacheArrow会取代Hadoop吗? 最佳答案 ApacheArrow是一个提议内存数据层,旨在支持不同的分析负载。ApacheSpark是一种与存储无关的集群计算框架。这两者不属于同一类别,也不会相互竞争,就像Arrow不与Hadoop竞争一样。 关于hadoop-ApacheSpark和ApacheArrow有什么区别?,我们在StackOverflow上找到一个类似的问题: https

hadoop - Spark 是 Apache Hadoop 的替代品吗

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我们在hadoop上工作了很多年。它被用于分布式数据存储和数据处理。现在我们已经知道spark比hadoop更好。这是否意味着我们应该用spark替换hadoop生态系统?有人可以详细说明吗?对于我们的场景,我们必须分析大量数据并且我们期望很快得到结果。这就是我们考虑使用Spark的原因。

hadoop - 为什么 Hadoop 不尊重 pyspark 中设置的 'spark.hadoop.fs' 属性?

这个问题在这里已经有了答案:Howtosethadoopconfigurationvaluesfrompyspark(3个答案)关闭5年前。我希望能够动态设置我的spark-defaults.conf中的三个属性:spark.driver.maxResultSizespark.hadoop.fs.s3a.access.keyspark.hadoop.fs.s3a.secret.key这是我的尝试:frompysparkimportSparkConffrompyspark.sqlimportSparkSessionconf=(SparkConf().setMaster(spark_mas