RDD_草庐IT

hadoop - (Spark) 当两个大的 rdd join 都对内存来说太大时(意味着不能使用广播)，是否有任何可能的方法来优化它们？

作为标题。当两个大的rddjoin都对内存来说太大时，是否有任何可能的方法来优化它们？在这种情况下，我想我们不能将广播用于map端连接。如果我必须加入这两个rdd，并且它们都太大而无法容纳在内存中:country_rdd:(id,country)income_rdd:(id,(income,month,year))joined_rdd=income_rdd.join(country_rdd)有什么方法可以减少这里的洗牌吗？或者我可以做些什么来调整连接性能？此外，joined_rdd将仅按国家和时间进一步计算和减少，不再与id相关。例如:我的最终结果=不同国家不同年份的收入。这样做的最佳

对内意味着 code section rdd hadoop apache-spark

hadoop - PySpark 重新分区 RDD 元素

我有一个spark作业，它从Kafka流中读取数据并为流中的每个RDD执行一个操作。如果RDD不为空，我想把RDD保存到HDFS，但是我想为RDD中的每个元素创建一个文件。我找到了RDD.saveAsTextFile(file_location)将为每个分区创建一个文件，因此我试图更改RDD，使每个分区仅包含一个元素。这是我正在尝试做的一个例子data=sc.parallelize(['1','2','3','4','5','6','7','8','9','0'])data.glom().collect()#Produces[['1','2','3','4','5'],['6','7'

PySpark hadoop 39 data section apache-spark partitioning rdd

apache-spark - Spark RDD : partitioning according to text file format

我有一个包含数十GB数据的文本文件，我需要从HDFS加载它并将其并行化为RDD。此文本文件使用以下格式描述项目。请注意，字母字符串不存在(每行的含义是隐含的)并且每行可以包含空格以分隔不同的值:0001(id)100010002000(dimensions)0100(weight)0030(amount)0002(id)111010005000(dimensions)0220(weight)3030(amount)我认为并行化此文件的最直接方法是将其从本地文件系统上传到HDFS，然后通过执行sc.textFile(filepath)创建一个RDD。但是，在这种情况下，分区将取决于与文件

apache-spark partitioning code String dimensions hadoop rdd hadoop-partitioning

hadoop - rdd.saveAsTextFile 似乎不起作用，但重复抛出 FileAlreadyExistsException

我正在运行dataFrame.rdd.saveAsTextFile("/home/hadoop/test")试图将数据帧写入磁盘。这执行没有错误，但未创建文件夹。此外，当我再次运行相同的命令时(在shell中)抛出异常:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectoryhdfs://ip-xxx-xx-xx-xx.ec2.internal:8020/home/hadoop/feetalreadyexists知道这是为什么吗？提交移动(客户端、集群)是否有细微差别会对此产生影响？编辑:我有权在/home/

FileAlreadyExistsException saveAsTextFile code section hadoop apache-spark

scala - Spark & Scala - 无法从 RDD 中过滤空值

我试图从RDD中过滤空值但失败了。这是我的代码:valhBaseRDD=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],classOf[org.apache.hadoop.hbase.client.Result])valraw_hbaserdd=hBaseRDD.map{kv=>kv._2}valRatings=raw_hbaseRDD.map{result=>valx=Bytes.toString(result.ge

amp scala section Bytes null hadoop apache-spark bigdata

hadoop - 在 Spark 中将简单的 RDD 写入 DynamoDB

只是在尝试将基本RDD数据集导入DynamoDB时卡住了。这是代码:importorg.apache.hadoop.mapred.JobConfvarrdd=sc.parallelize(Array(("",Map("col1"->Map("s"->"abc"),"col2"->Map("n"->"123")))))varjobConf=newJobConf(sc.hadoopConfiguration)jobConf.set("dynamodb.output.tableName","table_x")jobConf.set("mapred.output.format.class","

DynamoDB hadoop PairRDDFunctions apache anonfun apache-spark amazon-dynamodb amazon-emr

scala - 作为 Spark 作业提交时 Spark RDD 映射中的 NullPointerException

我们正在尝试提交一个spark作业(spark2.0、hadoop2.7.2)，但出于某种原因，我们在EMR中收到了一个相当神秘的NPE。一切都像scala程序一样运行良好，所以我们不确定是什么导致了这个问题。这是堆栈跟踪:18:02:55,271ERRORUtils:91-Abortingtaskjava.lang.NullPointerExceptionatorg.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.agg_doAggregateWithKeys$(UnknownSource)

Spark 射中 apache scala hadoop apache-spark distributed-computing bigdata

scala - 如何将 Spark RDD 保存到本地文件系统

我可以使用saveAsTextFile将文件保存到本地系统吗？句法？这就是我编写语法来保存文件的方式:insert_df.rdd.saveAsTextFile("")当我尝试执行此操作时，由于没有权限而出现错误，但我拥有对该特定本地路径的所有权限，看起来它正在将该文件视为HDFS文件。最佳答案我认为您应该尝试使用"file:///localpath"而不是"/localpath"。关于scala-如何将SparkRDD保存到本地文件系统，我们在StackOverflow上找到一个类

scala Spark section code saveAsTextFile hadoop apache-spark dataframe hive

python - pyspark - 多个输入文件到一个 RDD 和一个输出文件

我在Python中有一个字数统计，我想在Spark上运行多个文本文件并获得一个输出文件，因此所有文件中的字数都被计算在内。我尝试了一些解决方案，例如找到的解决方案here和here,但它仍然给出与输入文件数量相同的输出文件数量。rdd=sc.textFile("file:///path/*.txt")input=sc.textFile(join(rdd))或rdd=sc.textFile("file:///path/f0.txt,file:///path/f1.txt,...")rdds=Seq(rdd)input=sc.textFile(','.join(rdds))或rdd=sc.

pyspark python code section textFile hadoop apache-spark mapreduce

hadoop - 如果没有，如何处理 Spark RDD 分区。执行者 < 没有。 RDD分区

我想了解SparkStreaming中的一个基本知识。我有50个Kafka主题分区和5个执行程序，我使用的是DirectAPI，所以没有。RDD分区的数量将为50。如何在5个执行程序上处理该分区？将在每个执行器上一次启动1个分区，或者如果执行器有足够的内存和内核，它将在每个执行器上并行处理超过1个分区。最佳答案 Willsparkprocess1partitionatatimeoneachexecutorsoriftheexecutorhasenoughmemoryandcoresitwillprocessmorethan1par

RDD 何处 code section Spark hadoop apache-spark apache-kafka spark-streaming