sparking

scala - java.lang.NoSuchMethodError 当 rdd.saveAsTextFile 由 spark-shell

parallelize整数并尝试保存为文本文件，如下所示:scala>valtest=sc.parallelize(List(12,2,3,4))test:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[0]atparallelizeat:24另存为文本文件scala>test.saveAsTextFile("/test")如下所示的错误堆栈跟踪:java.lang.NoSuchMethodError:org.apache.hadoop.mapred.TaskID.(Lorg/apache/hadoop/mapreduce/Job

python - 如何在 spark 中使用 transform python udf 执行 hql 脚本？

我是通过POC激发和学习的新手。作为此POC的一部分，我正在尝试直接执行hql文件，该文件具有transform关键字以使用pythonudf。我已经在CLI“hive-ffilename.hql”中测试了hql脚本，它工作正常。我在spark-sql中尝试过相同的脚本，但它因hdfspathnotfound错误而失败。我尝试以如下不同的方式提供hdfs路径，但都不起作用"/test/scripts/test.hql""hdfs://test.net:8020/test/scripts/test.hql""hdfs:///test.net:8020/test/scripts/test.

python 何在 test code pre hadoop hive pyspark pyspark-sql

hadoop - spark2-shell 中的 Log4j

我正在通过spark2-shell-i选项运行其中一个spark脚本。我想使用log4j框架将生成的日志重定向到一个文件。我曾经运行的命令:spark2-shell--masteryarn--deploy-modeclient-iaudit.scala--confspark.driver.args="PRODsample.txt"--files/bigdata/datalakes/app/log/log4j.properties#log4j.properties--confspark.driver.extraJavaOptions='-Dlog4j.configuration=file

spark2-shell hadoop log log4j log4 apache-spark apache-spark-sql spark-streaming bigdata

hadoop - log4j.properties 过滤掉 Spark 和 YARN 日志

大家好，大家有一个关于ApacheSpark中的log4j的问题。在Sparklog4j中，如果我们使用“log4j.rootCategory=WARN”，这意味着它将过滤掉所有警告日志，但现在如果我只想过滤掉“Spark”和“YARN”日志，配置应该如何？log4j.rootCategory=WARN,consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.

properties hadoop log4j log4 logger apache-spark hadoop-yarn log4j2

java - 如何组织 Apache Spark 项目

我是Spark的新手，我想了解如何最好地设置项目。我将使用Maven进行构建，包括测试。我编写了我的第一个Spark应用程序，但要在开发过程中启动它，我必须以本地模式运行:SparkSessionspark=SparkSession.builder().appName("RDDTest").master("local").getOrCreate();但是，如果我想将它提交到集群，它仍将以我不希望的本地模式运行。所以我必须在部署之前更改代码，构建jar并将其提交到集群。显然这不是最好的方法。我想知道最佳做法是什么？您是否以某种方式外部化了主URL？最佳答案

Apache Spark section 交到 stackoverflow java hadoop apache-spark spark-dataframe

python - 尝试从 Jupyter Notebook 使用 Spark 访问 Google Cloud Bigtable 时出现区域错误

我正在尝试从运行PySpark内核的JupyterNotebook中运行对GoogleCloudBigtable的并行访问。我以http://ec2-54-66-129-240.ap-southeast-2.compute.amazonaws.com/httrack/docs/cloud.google.com/dataproc/examples/cloud-bigtable-example.html为例我正在使用我的特定项目/区域/集群/表名称。身份验证通过在spark上下文中广播的服务帐户凭据进行。jconf={"hbase.client.connection.impl":"com.

时出 Bigtable apache java spark python hadoop pyspark jupyter-notebook

hadoop - 基于在 spark 中创建的零件文件数量进行性能调整

以下是我工作的阶段:第1阶段-进行一些计算并将临时数据保存到文件中。将在流程中保存和读取多个临时数据帧。第2阶段-读取临时数据并进行一些其他计算并将其存储到最终数据文件中。注意:我保留了多个临时文件，因为我无法将它们保存在内存中，因为数据很大。(8400万行，200万个不同的主键kindoff值)我使用coleasce(n)或repartition(n)，其中n是一个很大的数字，例如:200。现在这会导致在输出中为我保留的每个临时数据创建200个文件。我知道coalesce/repartition对于写性能来说是一项代价高昂的工作。但是当我使用n=200时，我确实获得了比n=50时更好

中创进行性 section 例如的 hadoop apache-spark spark-dataframe

hadoop - Spark 小兽人条纹

我们使用Spark来展平点击流数据，然后以ORC+zlib格式将其写入S3，我尝试更改Spark中的许多设置，但创建的ORC文件的结果strip大小仍然非常小(到目前为止，我尝试减少strip大小，之前每个文件的大小为20MB，使用合并我现在正在创建大小为250-300MB的文件，但每个文件仍然有200个strip，即每个strip通过将hive.exec.orc.default.stripe.size设置为67108864尝试使用hivecontext而不是sparkcontext，但spark不遵守这些参数。那么，关于如何增加正在创建的ORC文件的strip大小有什么想法吗？因为小

条纹 hadoop section strip Spark apache-spark presto amazon-athena

hadoop - 通过Spark获取HDP版本

我们安装了新的Spark版本，因此所有文件夹的名称都类似于:ls/etc/hadoop/2.6.4.0-91confconf.backup从spark-submit我们得到spark-submit--versionWelcometo______/__/__________//___\\/_\/_`/__/'_//___/.__/\_,_/_//_/\_\version2.2.0.2.6.4.0-91/_/我需要确定spark版本-2.6.4.0-91。我们可以做到:ls/etc/hadoop/|grep[0-9]2.6.4.0-91但这种方法不是很好(因为可能有其他带编号的文件夹名称等

hadoop Spark code strong apache-spark hortonworks-data-platform

hadoop - Apache Spark history-server 如何引用 Amazon S3？

[版本]ApacheSpark2.2.0Hadoop2.7我想设置ApacheSpark历史服务器。位于AmazonS3中的Spark事件日志。我可以在S3中保存日志文件，但无法从历史服务器读取。ApacheSpark安装在/usr/local/spark所以，$SPARK_HOME是/usr/local/spark$cd/usr/local/spark/sbin$shstart-history-server.sh出现以下错误Exceptioninthread"main"java.lang.ClassNotFoundException:org.apache.hadoop.fs.s3a.

history-server history code spark java hadoop apache-spark amazon-s3

204 205 206207208 209 210