草庐IT

sparking

全部标签

hadoop - 如何为 Multi-Tenancy 配置 Hive Impala/Spark?

试图找出答案,但当我想到以下内容时找不到答案。它涵盖了Spark、Impala、MR、HiveMulti-Tenancy。Impala给出的场景。我觉得它也可以应用于Spark,因为Impala/Spark都是内存占用。场景1假设我们为MR、Hive和Impala创建一个具有Multi-Tenancy的10节点集群,其中40%的资源静态分配给Impala。为了运行Impala,我们创建了具有256GBRAM数据节点的集群。问题是对于这种配置,我们正在失去低成本低GB的优势,即32-40GBRAM和5-6个核心节点,这是MR/的主要卖点之一Hadoop可在处理100TB数据期间以极低的成

hadoop - Shuffle write 大和 spark task 变得超慢时的优化

有一个SparkSQL将连接4个大表(前3个表5000万,最后一个表2亿)并进行一些分组操作,消耗60天的数据。并且此SQL将需要2小时才能运行,在此期间,我检查到ShuffleWrite正在急剧增加,可能会超过200GB。相比之下,当我将消耗日期范围从60天减少到45天时,运行只需要6.3分钟。我查看了DAG图,对于45天的数据,它在最后一次sortMergeJoin之后输出了10亿条数据。谁能告诉我我可以从哪个方向优化这个场景?谢谢!附言可能的相关信息:Spark.version=2.1.0spark.executor.instances=20spark.executor.memo

hadoop - Spark 提交 :ERROR SparkContext: Error initializing SparkContext

我正在尝试在HadoopYARN客户端模式下运行我的spark作业,我正在使用以下命令$/usr/hdp/current/spark-client/bin/spark-submit--masteryarn-client--driver-memory1g--executor-memory1g--executor-cores1--filesparma1--jarsparam1param2--classcom.dc.analysis.jobs.AggregationJobsparkanalytics.jarparam1param2param3请在下面找到spark-default配置:Spa

hadoop - spark-shell --master yarn 卡住

我通过Homebrew安装了Hadoop和Spark$brewlist--versions|grepsparkapache-spark2.2.0$brewlist--versions|grephadoophadoop2.8.12.8.2hdfs我使用的是Hadoop2.8.2。我关注了thispost配置Hadoop。另外,关注thispost将spark.yarn.archive配置为:spark.yarn.archivehdfs://localhost:9000/user/panc25/spark-jars.zip以下是我在.bash_profile中的Hadoop/Spark相关

hadoop - 如何在 Spark2 中启用 spark.history.fs.cleaner?

我的Spark2和Spark配置都有spark.history.fs.cleaner.enabled=true。它适用于保持/spark-history/干净,但无法为/spark2-history做任何事情。关于为什么它不起作用的任何想法? 最佳答案 spark.history.fs.cleaner.enabledSpark属性控制定期清理磁盘上的事件日志的任务。在你的问题中它是spark.history.fs.cleaner=enabled所以我认为问题出在=字符上。另一个spark.history.fs.cleaner.int

hadoop - Spark saveAsTextFile 将空文件 - <directory>_$folder$ 写入 S3

rdd.saveAsTextFile("s3n://bucket-name/path)正在创建一个空文件,文件夹名称为-[folder-name]_$folder$似乎hadoop-awsjar(org.apache.hadoop的)使用这个空文件来模仿S3文件系统作为hadoop文件系统。但是,我的应用程序将数千个文件写入S3。当saveAsTextFile创建文件夹(从给定路径)以写入数据(从rdd)时,我的应用程序最终创建了数千个这样的空文件-[directory-name]_$folder$.有没有办法让rdd.saveAsTextFile不写这些空文件?

hadoop - 如何在 Spark 中使用 Kryo 注册 InternalRow

我想使用Kryo序列化运行Spark。因此我设置了spark.serializer=org.apache.spark.serializer.KryoSerializer和spark.kryo.registrationRequired=true然后当我运行我的代码时出现错误:Classisnotregistered:org.apache.spark.sql.catalyst.InternalRow[]根据thispost我用过sc.getConf.registerKryoClasses(Array(classOf[org.apache.spark.sql.catalyst.Interna

java - 如何在没有 spark 或框架的情况下将 parquet 文件保存在 hdfs 中?

我想使用java将parquet文件直接保存到hdfs。这是我用来生成parquet文件并将它们存储在本地的代码,但现在我想将它们存储在hdfs中。finalStringschemaLocation="/home/javier/FlinkProjects/kafka-flink/src/main/java/com/grallandco/demos/avro.json";finalSchemaavroSchema=newSchema.Parser().parse(newFile(schemaLocation));finalMessageTypeparquetSchema=newAvroS

apache-spark - ai/h2o/extensions/stacktrace/StackTraceExtension :Unsupported major. 次要版本 52.0

发生这种情况时,我正在使用苏打水。这是我的版本,完全符合文档的要求。jdk1.7.0_67scala-2.11.5hadoop-2.6.5spark-2.1.2-bin-hadoop2.6sparkling-water-2.1.27我使用了命令,成功启动了:bin/sparkling-shell--conf"spark.executor.memory=1g"它显示了这个:但是当我使用下一个命令时,却出错了。Exceptioninthread"H2OLauncherthread"java.lang.UnsupportedClassVersionError:ai/h2o/extension

apache-spark - Spark : YARN throws NoSuchMethodError on NettyMemoryMetrics

为了让Spark(spark-2.3.0-bin-without-hadoop)在HDFS上与YARN一起工作,我将Hadoop降级到hadoop-2.7.6以解决依赖问题。到目前为止,HDFS和YARN都没有问题。当我提交一个SparkJar时它崩溃了,我得到以下Stacktrace:Exceptioninthread"main"java.lang.NoSuchMethodError:io.netty.buffer.PooledByteBufAllocator.metric()Lio/netty/buffer/PooledByteBufAllocatorMetric;atorg.ap