RDD_草庐IT

hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto)

我正在使用spark来处理数据。但是我不知道如何将新数据保存到Hive我从Hive加载rdd，然后运行map函数来清理数据。result=myRdd.map(lambdax:cleanup(x))我想将结果保存到Hive中的新表中。所以我用result.insertInto("newTable",True)我收到错误:'PipelinedRDD'objecthasnoattribute'insertInto'如何将结果转换为rdd以使用insertInto函数？我也想知道还有其他方法可以完成这项任务吗？最佳答案我找到了答案f

rdd 何在 code section insertInto hadoop mapreduce hive apache-spark

java - 在 RDD 中存储数组的有效方法

我需要在RDD中存储类型数组。为此，我使用ArrayWritable来自Hadoop的类:staticpublicclassRecord{publiclongid;publicFloatArrayWritabledataArray;}它有效，但我想确保对象在不需要时不会被序列化。我想尽可能地留在内存中。Spark和Flink声称将数据保存在内存中。ArrayWritable类是这样吗？这是存储数组的有效方法吗？谢谢!编辑:来自@mattinbits的回答，对于Spark，有效的方法是使用Java数组或ArrayList(用于动态调整大小) 最佳答案

java RDD strong section ArrayList hadoop apache-spark apache-flink

hadoop - 如何在 spark 中使用 `wholeTextFile` 保存来自 `saveATextFile` RDD 的结果？

我在wholeTextFileRDD中使用spark在HDFS中创建了许多文件，我希望能够使用将它们保存在特定目录中anRDD.saveAsTextFile()问题是它会尝试创建一个全新的目录。我只想将这些结果放在现有目录中。我该怎么做呢？我已经查看了文档here，但path参数似乎没有任何改变。谢谢。最佳答案你有几个选择:滚动您自己的saveAsTextFile实现，不检查输出目录是否已经存在。写入临时文件夹，然后将文件移动到现有目录。RDD.saveAsTextFile使用TextOutputFormat，一种HadoopO

saveATextFile wholeTextFile code section saveAsTextFile hadoop apache-spark hdfs pyspark

hadoop - 在 rdd.saveAsHadoopFile 中重用 SparkHadoopWriter

Sparkrdd.saveAsHadoopFile非常浪费，因为它会在每次写入时生成一个新的SparkHadoopWriter。我们有一个用例，其中备份Spark作业仅仅是因为这些Writer上的gc跟不上传入流。是否有人重新实现了此方法，其中SparkHadoopWriter根据写入目标是哪个存储桶进行重用。如果我朝那个方向前进，是否有任何架构原因导致努力失败？最佳答案 RDD.saveAsHadoopFile在执行器上执行，如果我们想重用SparkHadoopWriter的实例，那么我们可能需要每次执行序列化和反序列化作业由执

重用 SparkHadoopWriter section code hadoop apache-spark garbage-collection

hadoop - 创建 SPARK RDD(HDFS 上的文件)和调用 Action 时出错

scala>valmanager=sc.textFile("hdfs://localhost:54310/user/training/employee_dir/employeeManager")scala>manager.first错误:java.io.EOFException:EndofFileExceptionbetweenlocalhostis:"localhost.localdomain/127.0.0.1";destinationhostis:"localhost":54310;:java.io.EOFException;Formoredetailssee:http://wi

时出 hadoop section 34 localhost apache-spark

hadoop - map 转换性能 spark dataframe 与 RDD

我有一个四节点hadoop集群(mapr)，每个集群有40GB内存。我需要在大数据集(5亿行)的其中一个字段上“应用”一个函数。我的代码流程是，我从配置单元表中读取数据作为spark数据帧，并在其中一列上应用所需的函数，如下所示:schema=StructType([StructField("field1",IntegerType(),False),StructField("field2",StringType(),False),StructField("field3",FloatType(),False)])udfCos=udf(lambdarow:function_call(row

dataframe hadoop spark section code apache-spark pyspark mapr

hadoop - 将 org.apache.spark.rdd.RDD[String] 转换为并行化集合

我的HDFS中有一个csv文件，其中包含一系列产品，例如:[56][85,66,73][57][8,16][25,96,22,17][83,61]我正在尝试在我的代码中应用关联规则算法。为此我需要运行这个:scala>valdata=sc.textFile("/user/cloudera/data")data:org.apache.spark.rdd.RDD[String]=/user/cloudera/dataMapPartitionsRDD[294]attextFileat:38scala>valdistData=sc.parallelize(data)但是当我提交这个时我得到了这

hadoop apache section code spark apache-spark sequence rdd

hadoop - 如何有效地读取带有 spark 路径的文件，即想要返回 `wholeTextFiles` 的 `RDD[String, Iterator[String]]`

大数据中的一个常见问题是将数据转换为大数据友好格式(parquet或TSV)。在当前返回RDD[(String,String)](path->wholefileasstring)的SparkwholeTextFiles中，这是一种有用的方法，但会导致许多问题当文件很大时(主要是内存问题)。原则上应该可以使用底层HadoopAPI编写如下方法defwholeTextFilesIterators(path:String):RDD[(String,Iterator[String])]其中迭代器是文件(假设换行符作为分隔符)并且迭代器正在封装底层文件读取和缓冲。在阅读代码一段时间后，我认为解决

String wholeTextFiles code section hadoop apache-spark bigdata

scala - 在 Scala/Spark 中从 RDD 中提取数据

所以我有一个大型数据集，它是一个stackoverflow用户群的样本。该数据集中的一行如下:我想从声誉中提取数字，在本例中是“11849”，从年龄中提取数字，在这个例子中是“35”，我希望将它们作为float。该文件位于HDFS中，因此采用RDD格式vallinesWithAge=lines.filter(line=>line.contains("Age="))//ThisisfilteringdatawhichdoesnthaveagevalrepSplit=linesWithAge.flatMap(line=>line.split("\""))//HereIamtryingtos

scala code 34 line hadoop apache-spark

hadoop - 保存 rdd 时 saveAsTextFile 失败

像saveAsTextFile这样的简单函数将不起作用，我找到的解决方案——主要是关于版本冲突的解决方案对我不起作用。非常感谢任何帮助。messages2.foreachRDD(rdd->{longnumHits=rdd.count();if(numHits==0)System.out.println("Nonewdatafetchedinlast30sec");//DoProcessingelse{System.out.println("Datafetchedinthelast30seconds:"+rdd.partitions().size()+"partitionsand"+nu

saveAsTextFile hadoop apache scala spark apache-spark