spark_libs_草庐IT

hadoop - 如何从 HBase 读取记录然后存储到 Spark RDD(弹性分布式数据集)；并读取一个 RDD 记录然后写入 HBase？

所以我想写一段代码从HadoopHBase中读取一条记录，然后将其存储到SparkRDD(ResilientDistributedDatasets)中；并读取一条RDD记录然后写入HBase。我对这两者的了解为零，我需要使用AWS云或Hadoop虚拟机。请有人指导我从头开始。最佳答案请使用Scala中的基本代码，我们正在使用Scala读取HBase中的数据。同样可以写个建表把数据写入HBaseimportorg.apache.hadoop.hbase.client.{HBaseAdmin,Result}importorg.apa

HBase RDD 34 section hadoop apache-spark bigdata

java - 由于 ClosedChannelException (DFSOutputStream.checkClosed) 而导致的 Spark 作业失败

我有一个spark应用程序。我使用saveAsNewAPIHadoopDataset在hdfs上存储一个rdd，利用AvroKeyOutputFormat。对于大型RDD，有时我会收到太多ClosedChannelException，以至于应用程序最终中止。我在某处读到设置hadoopConf.set("fs.hdfs.impl.disable.cache","false");有帮助。以下是我如何保存我的rdd:hadoopConf.set("fs.hdfs.impl.disable.cache","false");finalJobjob=Job.getInstance(hadoopC

ClosedChannelException DFSOutputStream apache java DataFileWriter hadoop apache-spark hdfs avro

scala - Spark-scala 如何使用 HDFS 目录分区

为了减少处理时间，我按日期对数据进行分区，以便我只使用所需的日期数据(不是完整的表格)。所以现在在HDFS中，我的表格存储如下src_tbl//maindirtrg_tbl2016-01-01//subdir2015-12-302016-01-022015-12-312016-01-032016-01-012016-01-03现在我想从src_tbl中选择min(date)这将是2016-01-01从trg_tbl我想使用>=2016-01-01(src_tblmin(date))目录中的数据2016-01-01和2016-01-03数据`如何使用Spark-scala从hdfs选择所

scala Spark-scala code strong section hadoop apache-spark hdfs

hadoop - 超出 Spark Job 错误 GC 开销限制

这个问题在这里已经有了答案:Errorjava.lang.OutOfMemoryError:GCoverheadlimitexceeded(22个答案)关闭6年前。我正在运行一个spark作业，我在spark-defaults.sh中设置了以下配置。我在名称节点中进行了以下更改。我有1个数据节点。我正在处理2GB的数据。spark.masterspark://master:7077spark.executor.memory5gspark.eventLog.enabledtruespark.eventLog.dirhdfs://namenode:8021/directoryspark.s

hadoop Spark section text apache-spark garbage-collection out-of-memory

hadoop - 如何在 spark 中处理后发布单个 Parquet 文件

我有一个包含100,000条记录的Parquet文件。我想并行处理所有记录，我的处理将生成更多列。因此，如果我的Parquet文件有3列和100,000条记录，我的文件如下所示-colAcolBcolCaabbccaa1bb1cc1并行处理后，我想要一个包含相同列和3列的新Parquet文件。我的输出看起来像这样-colAcolBcolCcolDcolEcolFaabbccddeeffaa1bb1cc1dd1ee1ff1我想知道-在spark节点中并行运行后，如何将所有结果合并到1个parquet文件中？如何向现有文件添加更多列？如有任何帮助，我们将不胜感激。

后发何在 section Parquet code hadoop apache-spark bigdata

java - 如何在 Hortonworks VM 上的 Spark 上运行 .jar？

我是HortonworksVM的新手，我很困惑。我正在尝试在Spark上运行.jar文件。通常我通过运行在Windows上进行本地测试spark-submit--driver-memory4g--classen.name.ClassName%CODE%/target/program.jar但由于我需要Hive，所以我想我应该转移到HortonworksVM以在本地进行测试。现在，我已经通过Hortonworks的Ambari的HDFS文件GUI将我的.jar和输入文件上传到HDFS(到/tmp/my_code目录)。接下来是什么？我也找到了命令行，但是如何从VM的命令行访问HDFS上的

何在 Hortonworks code jar section java hadoop virtual-machine hortonworks-data-platform

hadoop - Spark :What is the ideal number of reducers

我的数据大约是300G。如果我使用Hadoop对其执行reduce作业，180个reduce插槽就可以了，队列中没有任务等待。如果我使用具有相同数量的reduce槽的Spark执行此操作，它会在洗牌阶段卡住，而如果我使用更多的槽(比如4000)就不会发生这种情况，但这将以低效率结束。有什么我可以做的，比如调整参数，以便我可以使用与hadoop相同的插槽？顺便说一句，我的集群有15个节点，每个节点有12个核心最佳答案 ShuffleOperationinHadoopandSpark是关于该主题的好读物。一些引述:Eachmaptas

reducers hadoop Spark shuffle apache-spark

scala - Spark 中的 Hadoop 配置

为了调试，我需要在我的Spark作业中获取当前的Hadooporg.apache.hadoop.conf.Configuration。具体来说，我需要使用org.apache.hadoop.fs.Path#getFileSystem(conf:Configuration)方法获取org.apache.hadoop.fs.FileSystem路径给定一个org.apache.spark.SparkContext，有没有办法获取Configuration？最佳答案您可以按照下面的代码设置配置sc.hadoopConfiguratio

Hadoop scala code section Configuration apache-spark

hadoop - Spark RDD 和 HDFS 数据 block 的区别

请帮助我理解HDFS的数据block和Spark中的RDD之间的区别。HDFS将数据集分发到集群中的多个节点作为具有相同大小的block，数据block将被复制多次并存储。RDD被创建为并行集合。Parallelized集合的元素是跨节点分布还是存储在内存中处理？和HDFS的数据block有关系吗？最佳答案 IsthereanyrelationtoHDFS'datablocks?一般不会。他们解决不同的问题RDD是关于分配计算和处理计算失败的。HDFS用于分配存储和处理存储故障。分布是公分母，但仅此而已，故障处理策略明显不同(分别

hadoop Spark section HDFS block apache-spark rdd

apache-spark - Spark : is using wrong network interface

我在docker容器中使用hadoop集群(我正在使用覆盖网络)我在同一个主机上有2个容器(master和slave2)另一个在不同的主机(slave1)容器可以访问仅由它们使用的本地网络10.0.0.0master和slave2容器还可以访问与主机172.18.0.0共享的另一个网络Slave1可以访问与其主机共享的不同网络172.18.0.0两台主机中的网络172.18.0.0是独立的。所以恢复每个容器都有两个ip地址master:10.0.0.2和172.18.0.2salve2:10.0.0.3和172.18.0.3药膏3；10.0.0.4和172.18.0.2树容器必须通过1

apache-spark interface code gt lt hadoop docker pyspark network-interface