RDD

hadoop - UNION parent rdd and child rdd before action 时会发生什么？

假设我有一些rdd具有这样的血统:rdd0->rdd1->rdd2->rdd3->rdd4当我执行rdd1.union(rdd2).union(rdd3).union(rdd4).collect()时会发生什么？spark会不会在计算rdd4的时候重新计算rdd0到rdd3的转换？最佳答案 union是一个转换，所以当您执行valx=aunion(b)时，它会向标识符所引用的沿袭添加一个新元素x。此时没有真正计算出任何东西。可以将其视为添加了元素的蓝图。当对x调用操作时，此蓝图将从添加的第一个元素开始执行。现在，在您的情况下，当您

hadoop - 可以获取多个输入文件而不在 pyspark 中创建一个 RDD 吗？

在Hadoop中，我可以将应用程序指向一个路径，然后映射器将单独处理文件。我必须以这种方式处理它，因为我需要解析文件名和路径以匹配我直接在映射器中加载的其他文件。在pyspark中，将路径传递给SparkContext的文本文件会创建一个RDD。有什么方法可以在Spark/pyspark中复制相同的Hadoop行为吗？最佳答案我希望这能解决您的一些困惑:sparkContext.wholeTextFiles(path)返回一个pairRDD(有用链接:https://www.safaribooksonline.com/libra

建一中创 section file hadoop pyspark

java - 如何从 Spark 中的 Slaves 内存创建 RDD？

我知道这听起来可能很傻，但是有什么方法可以从当前位于集群从属内存中的文件创建RDD吗？我知道要创建一个RDD，我们必须指定存储文件的路径/hdfs路径。但我很好奇我是否可以在Javaapplications之间复制对象并以相同的名称将对象直接放入奴隶的内存中，有没有办法用这些文件创建RDD和/或以分布式方式工作？提前致谢! 最佳答案简短的回答是否定的。“奴隶”根本不参与计算。只负责资源管理部分。另一方面，worker本身并不存在。它们与应用程序相关联，因此在它之外没有“当前状态”。您可以做的是创建虚拟RDD并在对它们调用函数时加载

Slaves Spark section stackoverflow questions java hadoop apache-spark

apache-spark - 如何使用 Spark Scala 连接 3 个 RDD

我想使用sparkrdd加入3个表。我使用sparksql实现了我的目标，但是当我尝试使用Rdd加入它时，我没有得到想要的结果。下面是我使用sparkSQL和output的查询:scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"===$"df2.act_id").join(movieDF.as("df3"),$"df2.mov_id"===$"df3.mov_id").filter(col("df3.mov_title")==="AnnieHall").select($"df1.act_fname",$"df

apache-spark apache 34 code String hadoop apache-spark-sql bigdata rdd

scala - Spark 中的 RDD 持久化

这个问题在这里已经有了答案:(Why)doweneedtocallcacheorpersistonaRDD(5个答案)关闭7年前。我有一个关于RDD何时存储在内存中的问题。假设我有这段代码:valdataset=originalDataset.flatMap(data=>modifyDatasetFormat(data,mappingsInMap)).persist(StorageLevel.MEMORY_AND_DISK)到目前为止，我有一个RDD存储在每个工作节点的内存中。问题:如果我对这个RDD进行另一个转换或操作，这个持久性是否会停止存在并且我应该创建另一个或者它与它没有任何关

持久 scala section code notice hadoop apache-spark rdd

java - 来自现有 RDD 的 Spark Streaming

任何人请帮助我如何从现有的RDD创建DStream。我的代码是:JavaSparkContextctx=newJavaSparkContext(conf);JavaRDDrddd=ctx.parallelize(arraylist);现在我需要使用这些rddd作为JavaStreamingContext的输入。最佳答案试一试queueStreamAPI.RDD队列作为一个Stream，每一个插入队列的RDD在DStream中都会被当作一批数据，像流一样处理。publicInputDStreamqueueStream(scala.

Streaming Spark section queueStream strong java hadoop apache-spark spark-streaming

scala - 如何根据两列订购spark RDD

我有以下RDD数据集:ABC[G4,G3,G1]3FFF[G5,G4,G3]3CDE[G5,G4,G3,G2]4XYZ[G4,G3]2需要先按最后一列desc排序，如果最后一列相同，则按第一个元组项desc顺序排序。预期的结果是CDE[G5,G4,G3,G2]4FFF[G5,G4,G3]3ABC[G4,G3,G1]3XYZ[G4,G3]2提前致谢。最佳答案您可以使用sortBy:rdd.sortBy(r=>(r._3,r._2(0)),false)上面的r._3代表最后一列，r._2(0)代表第二列的第一个元素(是一个数组),而

订购 scala 34 code section hadoop apache-spark rdd

hadoop - 加入 RDD 中的特定行

我有一个像这样的RDD:[('anger',166),('lyon',193),('marseilles_1',284),('nice',203),('paris_2',642),('paris_3',330),('troyes',214),('marseilles_2',231),('nantes',207),('orlean',196),('paris_1',596),('rennes',180),('toulouse',177)]我需要将paris_1、paris_2、paris_3合并到名为paris的一行中。我完全不知道如何继续，也没有找到任何答案。你能帮帮我吗？

hadoop RDD 39 code section apache-spark pyspark

scala - 如何解决错误 : value reduceByKey is not a member of org. apache.spark.rdd.RDD[(Int, Int)]？

我正在学习apachespark并尝试在scala终端上执行一个小程序。我已经使用以下命令启动了dfs、yarn和历史服务器:start-dfs.shstart-yarn.shmr-jobhistory-deamon.shstarthistoryserver然后在scala终端中，我编写了以下命令:varfile=sc.textFile("/Users/****/Documents/backups/h/*****/input/ncdc/micro-tab/sample.txt");valrecords=lines.map(_.split("\t"));valfilters=record

reduceByKey Int section code scala hadoop apache-spark rdd hadoop2

scala - 从 spark dataframe 或 RDD 生成键值对，键中存在列名

我有一个spark数据框，我需要如下所示的键值对。我特别需要键中的列名。我想使用单个映射器传递来执行此操作。原始数据集:预期键值对:(Attribute_Name,Attribute_Value,Class),1单次映射后的预期结果:预期数据集最佳答案这应该有帮助:importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.functions.{explode,udf,typedLit}importorg.apache.spark.sql.S

列名 dataframe 34 header section scala apache-spark hadoop apache-spark-sql decision-tree

14 15 161718 19 20