spark-submit_草庐IT

apache-spark - 如何将托管在 HDFS 中的配置文件传递给 Spark 应用程序？

我正在使用SparkStructuredStreaming。另外，我正在使用Scala。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如;spark_job.conf(HOCON)spark{appName:"",master:"",shuffle.size:4etc..}kafkaSource{servers:"",topic:"",etc..}redisSink{host:"",port:999,timeout:2000,checkpointLocation:"hdfslocation",etc..}如何将它传递给Spark应用程序？我如何在Spark中

apache-spark 传递 code section 34 hadoop configuration apache-spark-sql spark-structured-streaming

scala - 内存不足异常或工作节点在 spark scala 作业期间丢失

我正在使用spark-shell执行一个spark-scala作业，我面临的问题是，在最后阶段和最终映射器结束时，就像在第5阶段，它分配50并很快完成49，在第50个它需要5分钟，并说内存不足并失败。我正在使用SPARK_MAJOR_VERSION=2我正在使用下面的命令spark-shell--masteryarn--confspark.driver.memory=30G--confspark.executor.memory=40G--confspark.shuffle.service.enabled=true--confspark.dynamicAllocation.enabled

scala spark java ByteArrayOutputStream apache-spark hadoop hive spark-shell

apache-spark - 如何在 Spark 中使用 ASCII 函数

我需要帮助使用scala来使用Spark函数ASCII(sparkSQl字符串函数)importorg.apache.spark.sql.SparkSessionimportspark.implicits._importorg.apache.spark.sql.functionsvala=sc.parallelize(Array("Santosh","Adithya"))selectascii('Santosh')我需要santosh的ascii值和rdda的ascii值最佳答案 ascii是spark-sqlapi的一部分，只能

何在 apache-spark spark section apache hadoop apache-spark-sql

apache-spark - 将 JSON 字符串列拆分为多列

我正在寻找一种通用解决方案，以将所有json字段提取为JSON字符串列中的列。df=spark.read.load(path)df.show()'path'中文件的文件格式为parquet示例数据|id|json_data|1|{"name":"abc","depts":["dep01","dep02"]}|2|{"name":"xyz","depts":["dep03"],"sal":100}|3|{"name":"pqr","depts":["dep02"],"address":{"city":"SF","state":"CA"}}预期输出|id|name|depts|sal|ad

串列多列 34 code strong apache-spark hadoop pyspark pyspark-dataframes

hadoop - 使用 globStatus 和 Google Cloud Storage 存储桶作为输入时无法运行 Spark 作业

我正在使用Spark1.1。我有一个Spark作业，它只在存储桶下寻找特定模式的文件夹(即以...开头的文件夹)，并且应该只处理那些。我通过执行以下操作实现了这一点:FileSystemfs=FileSystem.get(newConfiguration(true));FileStatus[]statusArr=fs.globStatus(newPath(inputPath));ListstatusList=Arrays.asList(statusArr);ListpathsStr=convertFileStatusToPath(statusList);JavaRDDpaths=sc.

入时 globStatus code FileSystem pre hadoop google-cloud-storage apache-spark google-hadoop

scala - 使用 Scala 在 Spark 中创建映射值

我是spark-scala开发的新手。我正在尝试使用scala在spark中创建映射值，但出现类型不匹配错误。scala>valnums=sc.parallelize(Map("red"->"#FF0000","azure"->"#F0FFFF","peru"->"#CD853F")):21:error:typemismatch;found:scala.collection.immutable.Map[String,String]required:Seq[?]Erroroccurredinanapplicationinvolvingdefaultarguments.valnums=sc

中创 scala code 34 String hadoop apache-spark

python - Spark Python提交报错: File does not exist: pyspark. zip

我正在尝试在yarn-cluster模式下提交pythonspark应用程序。Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--num-executors",sparkConfig.getString("spark.num-executors"),"python/app.py")!我遇到以下错误，D

pyspark python 34 section spark hadoop apache-spark

hadoop - Apache Spark 和 Apache Arrow 有什么区别？

ApacheArrow和ApacheSpark之间有什么区别？ApacheArrow会取代Hadoop吗？最佳答案 ApacheArrow是一个提议内存数据层，旨在支持不同的分析负载。ApacheSpark是一种与存储无关的集群计算框架。这两者不属于同一类别，也不会相互竞争，就像Arrow不与Hadoop竞争一样。关于hadoop-ApacheSpark和ApacheArrow有什么区别？，我们在StackOverflow上找到一个类似的问题： https

Apache hadoop section strong apache-spark apache-arrow bigdata

hadoop - Spark 是 Apache Hadoop 的替代品吗

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我们在hadoop上工作了很多年。它被用于分布式数据存储和数据处理。现在我们已经知道spark比hadoop更好。这是否意味着我们应该用spark替换hadoop生态系统？有人可以详细说明吗？对于我们的场景，我们必须分析大量数据并且我们期望很快得到结果。这就是我们考虑使用Spark的原因。

替代品 hadoop section class notice apache-spark hdfs pyspark

hadoop - 为什么 Hadoop 不尊重 pyspark 中设置的 'spark.hadoop.fs' 属性？

这个问题在这里已经有了答案:Howtosethadoopconfigurationvaluesfrompyspark(3个答案)关闭5年前。我希望能够动态设置我的spark-defaults.conf中的三个属性:spark.driver.maxResultSizespark.hadoop.fs.s3a.access.keyspark.hadoop.fs.s3a.secret.key这是我的尝试:frompysparkimportSparkConffrompyspark.sqlimportSparkSessionconf=(SparkConf().setMaster(spark_mas

中设 hadoop spark code section apache-spark amazon-s3 properties configuration