spark-dataframe

apache-spark - 内存配置对公平调度器真的重要吗？

我们有一个配置了公平调度器的hadoop集群。我们过去常常看到这样的场景，即集群中没有多少作业要运行，正在运行的作业试图占用尽可能多的可用内存和内核。对于公平调度程序，执行程序内存和内核对spark作业真的很重要吗？还是取决于公平调度程序来决定给多少？最佳答案 FairScheduler的政策是分配给它的第一个作业将拥有提供的所有资源。当我们运行第二个作业时，所有资源将被划分为(可用资源)/(作业数量)现在主要关注的是，您为运行作业提供了多少容器内存。如果它等于可用资源的总数，那么您的工作确实可以使用所有资源。

平调 apache-spark section stackoverflow questions hadoop cloudera hadoop2

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

在下面的ScalaSpark代码中，我需要找到不同列的计数及其值的百分比。为此，我需要对每一列使用withColumn方法，例如date、usage、payment、dateFinal，usageFinal，paymentFinal。对于每个计算，我都需要使用withColumn来获取总和和聚合。有什么方法可以让我不用写，.withColumn("SUM",sum("count").over()).withColumn("fraction",col("count")/sum("count").over()).withColumn("Percent",col("fraction")*10

scala Spark 34 coll withColumn apache-spark hadoop hive apache-spark-sql

apache-spark - 是否有 Hadoop 组件的兼容性矩阵？

我想知道是否有生态系统的各种Hadoop组件的兼容性矩阵？每次Hadoop升级都会对兼容性产生很大的影响，例如:ApacheSpark2.4不支持Hadoopv3，Hadoop不支持Java9和10，等等...我知道像Hortonworks这样的供应商会在每个版本的发行版中发布组件列表，但这并不适合广大公众，因为其中包括已打补丁的组件。是否必须通过Jira的所有错误跟踪器来查找每种工具的兼容性问题？最佳答案像Cloudera/Hortonworks这样的公司所做的关键事情之一就是采用构成Hadoop的所有开源项目，并确保它们能够

apache-spark apache section Hadoop 跟踪器

scala - 用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

我在Greenplum数据库中有数TB的结构化数据。我需要对我的数据运行本质上是MapReduce作业。我发现自己至少重新实现了MapReduce的功能，以便这些数据适合内存(以流方式)。然后我决定到别处寻找更完整的解决方案。我查看了PivotalHD+Spark，因为我使用的是Scala，而Spark基准测试是一个令人惊叹的因素。但我相信这背后的数据存储HDFS的效率将低于Greenplum。(注意“我相信”。我很高兴知道我错了，但请提供一些证据。)因此，为了与Greenplum存储层保持一致，我查看了Pivotal的HAWQ，它基本上是在Greenplum上使用SQL的Hadoop

结构化 Greenplum HAWQ MapReduce scala hadoop apache-spark

hadoop - 具有 gzip 格式的大文本文件的 Spark 作业

我正在运行一个Spark作业，它花费了很长时间来处理输入文件。输入文件为6.8GBGzip格式，包含1.1亿行文本。我知道它是Gzip格式，所以它不可拆分，并且只有一个执行程序将用于读取该文件。作为调试过程的一部分，我决定只看看将gzip文件转换为parquet需要多长时间。我的想法是，一旦我转换为parquet文件，然后如果我在该文件上运行我的原始Spark作业，在这种情况下它将使用多个执行程序并且输入文件将被并行处理。但即使是小工作也比我预期的要花更长的时间。这是我的代码:valinput=sqlContext.read.text("input.gz")input.write.pa

大文本文 li 的 Spark hadoop apache-spark amazon-s3 spark-dataframe parquet

scala - Spark : sc. WholeTextFiles 执行时间过长

我有一个集群，我执行了wholeTextFiles，它应该提取大约一百万个文本文件，总计大约10GB我有一个NameNode和两个DataNode，每个都有30GBRAM，每个有4个内核。数据存储在HDFS中。我没有运行任何特殊参数，作业仅读取数据就需要5个小时。这是预期的吗？是否有任何参数可以加快读取速度(spark配置或分区、执行程序数量？)我才刚刚起步，之前从未需要优化工作编辑:此外，有人可以准确解释wholeTextFiles函数的工作原理吗？(不是如何使用它，而是它是如何编程的)。我非常有兴趣了解分区参数等。编辑2:基准评估所以我尝试在wholeTextFile之后重新分区，

WholeTextFiles scala code section strong hadoop optimization configuration apache-spark

hadoop - Google Cloud Dataproc - Spark 和 Hadoop 版本

在GoogleCloudDataproc测试版中，Spark和Hadoop的版本是什么？Spark是为哪个版本的Scala编译的？最佳答案根据officialannouncement:Today,wearelaunchingwithclustersthathaveSpark1.5andHadoop2.7.1. 关于hadoop-GoogleCloudDataproc-Spark和Hadoop版本，我们在StackOverflow上找到一个类似的问题： ht

Dataproc hadoop section Spark apache-spark google-cloud-platform google-cloud-dataproc

java - 使用带迭代器的 mapPartition 保存 spark RDD

我有一些中间数据需要存储在HDFS和本地。我正在使用Spark1.6。在作为中间形式的HDFS中，我在/output/testDummy/part-00000和/output/testDummy/part-00001中获取数据。我想使用Java/Scala将这些分区保存在本地，这样我就可以将它们保存为/users/home/indexes/index.nt(通过在本地合并)或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。这是我的代码:注意:testDummy与test相同，输出有两个分区。我想将它们单独存

mapPartition spark code println 34 java scala hadoop apache-spark hdfs

java - Apache Spark : TaskResultLost (result lost from block manager) Error On cluster

我在Virtualbox上有一个带有3个从节点的Spark独立集群。我的代码在Java上，它可以很好地处理我的小输入数据集，它们的输入总共大约100MB。我将我的虚拟机RAM设置为16GB，但是当我在大输入文件(大约2GB)上运行我的代码时，在我的reduce部分处理数小时后出现此错误:Jobabortedduetostagefailure:Totalsizeofserializedresultsof4tasks(4.3GB)isbiggerthanspark.driver.maxResultSize`我编辑了spark-defaults.conf并为spark.driver.maxR

TaskResultLost cluster code Boolean section java hadoop apache-spark mapreduce

java - 无法在 Spark 中配置 ORC 属性

我正在使用Spark1.6(Cloudera5.8.2)并尝试了以下方法来配置ORC属性。但不影响输出。下面是我试过的代码片段。DataFramedataframe=hiveContext.createDataFrame(rowData,schema);dataframe.write().format("orc").options(newHashMap(){{put("orc.compress","SNAPPY");put("hive.exec.orc.default.compress","SNAPPY");put("orc.compress.size","524288");put("

Spark java code 34 compress hadoop apache-spark hive cloudera

77 78 798081 82 83