scala-cats

scala - 使用scala将Spark处理后的结果转储到HDFS

在使用spark处理数据后，我对找到将数据保存到HDFS中的正确方法感到有点困惑。这就是我想要做的。我正在计算数字字段的最小值、最大值和SD。我的输入文件有数百万行，但输出只有大约15-20个字段。因此，输出是每个字段的单个值(标量)。例如:我将FIELD1的所有行加载到一个RDD中，最后，我将获得FIELD1的3个单值(MIN、MAX、SD)。我将这三个值连接成临时字符串。最后，我将有15到20行，包含4列，格式如下FIELD_NAME_1MINMAXSDFIELD_NAME_2MINMAXSD这是一段代码://createrddvaldata=sc.textFile("hdfs:/

scala - 超出物理限制运行的 Spark 容器

我一直在寻找以下问题的解决方案。我使用的是Scala2.11.8和Spark2.1.0。Applicationapplication_1489191400413_3294failed1timesduetoAMContainerforappattempt_1489191400413_3294_000001exitedwithexitCode:-104Formoredetailedoutput,checkapplicationtrackingpage:http://ip-172-31-17-35.us-west-2.compute.internal:8088/cluster/app/app

容器 scala code 34 memory apache-spark hadoop hadoop-yarn

scala - Spark : Executor Lost Failure (After adding groupBy job)

我正在尝试在Yarn客户端上运行Spark作业。我有两个节点，每个节点都有以下配置。我收到“ExecutorLostFailure(执行程序1丢失)”。我已经尝试了大部分Spark调优配置。我已经减少到一个执行器丢失，因为最初我遇到了6个执行器故障。这些是我的配置(我的spark-submit):HADOOP_USER_NAME=hdfsspark-submit--classgenkvs.CreateFieldMappings--masteryarn-client--driver-memory11g--executor-memory11G--total-executor-cores16

Executor Failure section spark conf scala hadoop apache-spark out-of-memory executors

scala - 有效地为 spark 实现 takeByKey

我有一个类型为RDD[(k:Int,v:String)]的RDD。我想为每个键k使用最多1000个元组，这样我就有了[(k,v)]，其中没有键出现超过1000次。有没有一种方法可以避免先调用groupBy的性能损失？我想不出一种聚合值的好方法，以避免导致我的工作失败的完整groupBy。天真的方法:deftakeByKey(rdd:RDD[(K,V)],n:Int):RDD[(K,V)]={rdd.groupBy(_._1).mapValues(_.take(n)).flatMap(_._2)}我正在寻找一种更有效的方法来避免groupBy:takeByKey(rdd:RDD[(K,V

takeByKey scala code length acc hadoop apache-spark functional-programming rdd

scala - 为什么这个 LR 代码在 spark 上运行太慢？

因为MLlib不支持稀疏输入。所以我在spark集群上运行支持稀疏输入格式的流动代码。设置是:5个节点，每个节点有8个核心(每个节点上的所有cpu都是100%，98%用于用户模型，运行代码时)。输入:HDFS上的10,000,000+个实例和600,000+个维度代码是:importjava.util.Randomimportscala.collection.mutable.HashMapimportscala.io.Sourceimportorg.apache.spark.SparkContextimportorg.apache.spark.rdd.RDDimportorg.apac

scala spark val Double Vector hadoop machine-learning apache-spark

scala - 如何在烫金工作结束时只执行一次操作？

我在scaldinggroupAll文档中读到:/***Groupalltuplesdowntoonereducer.*(duetocascadinglimitation).*ThisisprobablyonlyusefuljustbeforesettingatailsuchasDatabase*tail,sothatonlyonereducertalkstotheDB.Kindofahack.*/defgroupAll:Pipe=groupAll{_.pass}这让我有充分的理由相信，如果我pipe我的最终write结果到一个statusUpdater管道，它只更新我的一些数据库作业

烫金何在 code section groupAll scala hadoop cascading scalding

scala - 作为 Spark 作业提交时 Spark RDD 映射中的 NullPointerException

我们正在尝试提交一个spark作业(spark2.0、hadoop2.7.2)，但出于某种原因，我们在EMR中收到了一个相当神秘的NPE。一切都像scala程序一样运行良好，所以我们不确定是什么导致了这个问题。这是堆栈跟踪:18:02:55,271ERRORUtils:91-Abortingtaskjava.lang.NullPointerExceptionatorg.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.agg_doAggregateWithKeys$(UnknownSource)

Spark 射中 apache scala hadoop apache-spark distributed-computing bigdata

scala - Spark : grouping rows in array by key

我有一个像这样的spark数据集:keyidval1val2val31aa1a2a32aa4a5a63bb1b2b34bb4b5b65bb7b8b96cc1c2c3我想像这样在列表或数组中按id对所有行进行分组:(a,([1aa1a2a3],[2aa4a5a6])),(b,([3bb1b2b3],[4bb4b5b6],[5bb7b8b9])),(c,([6cc1c2c3]))我已经使用map输出具有正确键的键/值对，但我在构建最终键/数组时遇到了麻烦。有人可以帮忙吗？最佳答案这个怎么样:importorg.apache.spar

grouping scala section 34 code hadoop apache-spark

scala - 如何将 Spark RDD 保存到本地文件系统

我可以使用saveAsTextFile将文件保存到本地系统吗？句法？这就是我编写语法来保存文件的方式:insert_df.rdd.saveAsTextFile("")当我尝试执行此操作时，由于没有权限而出现错误，但我拥有对该特定本地路径的所有权限，看起来它正在将该文件视为HDFS文件。最佳答案我认为您应该尝试使用"file:///localpath"而不是"/localpath"。关于scala-如何将SparkRDD保存到本地文件系统，我们在StackOverflow上找到一个类

scala Spark section code saveAsTextFile hadoop apache-spark dataframe hive

scala - 使用 sc.textfile 时读取文本文件的是驱动程序还是 worker ？

我想知道sc.textfile是如何在Spark中使用的。我的猜测是驱动程序一次读取文件的一部分，并将读取的文本分发给工作人员进行处理。还是工作人员直接从文件中读取文本而无需司机参与？最佳答案驱动程序查看文件元数据-检查它是否存在，检查目录中有哪些文件(如果是目录)，并检查它们的大小。然后它将任务发送给工作人员，由他们实际读取文件内容。通信本质上是“您从这个偏移量开始读取这个文件的长度。”HDFS将大文件拆分为block，而spark将(通常/经常)根据block拆分任务，因此跳到该偏移量的过程将是高效的。其他文件系统往往以类似

textfile 本文 section 偏移工作人员 scala file hadoop apache-spark io

143 144 145146147 148 149