草庐IT

Storagelevel

全部标签

java - 有没有办法改变 Spark 中 RDD 的复制因子?

据我了解,集群中的RDD中的数据存在多份副本,这样当某个节点出现故障时,程序可以恢复。然而,在失败的可能性可以忽略不计的情况下,在RDD中拥有多个数据副本在内存方面的成本很高。那么,我的问题是,Spark中是否有一个参数可以用来降低RDD的复制因子? 最佳答案 首先,请注意Spark不会自动缓存所有RDD,这仅仅是因为应用程序可能会创建许多RDD,并且并非所有这些都将被重用。您必须对它们调用.persist()或.cache()。你可以设置你想要持久化一个RDD的存储级别myRDD.persist(StorageLevel.MEMO

持久数据帧忽略Storagelevel

我正在使用SPARKSQL数据框架,并且正在持续存在问题,以加快以后的计算。特别是在打电话时persist(StorageLevel.MEMORY_AND_DISK)然后随后在SparkUI的“存储”选项卡中检查RDD被缓存,但存储级别总是显示MemoryDeserialized1xReplicated并且“磁盘上的大小”列显示所有RDD的0.0b。我也尝试了MEMORY_AND_DISK_SER但是获得相同的结果。我很好奇是否有人看过这个,或者我在这里做事不正确。审查火花文档,表明呼叫cache()或者persist()在数据帧上默认为存储级别MEMORY_AND_DISK并使用cacheT

hadoop - 如何在 spark 上的 hive 中设置 spark RDD StorageLevel?

在我的hiveonspark作业中,出现此错误:org.apache.spark.shuffle.MetadataFetchFailedException:缺少shuffle0的输出位置感谢您的回答(WhydoSparkjobsfailwithorg.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0inspeculationmode?),我知道这可能是我的hiveonspark作业有同样的问题由于hive将sql转换为hiveonspark作业,我不知道如何在hive