Storagelevel

java - 有没有办法改变 Spark 中 RDD 的复制因子？

据我了解，集群中的RDD中的数据存在多份副本，这样当某个节点出现故障时，程序可以恢复。然而，在失败的可能性可以忽略不计的情况下，在RDD中拥有多个数据副本在内存方面的成本很高。那么，我的问题是，Spark中是否有一个参数可以用来降低RDD的复制因子？最佳答案首先，请注意Spark不会自动缓存所有RDD，这仅仅是因为应用程序可能会创建许多RDD，并且并非所有这些都将被重用。您必须对它们调用.persist()或.cache()。你可以设置你想要持久化一个RDD的存储级别myRDD.persist(StorageLevel.MEMO

持久数据帧忽略Storagelevel

我正在使用SPARKSQL数据框架，并且正在持续存在问题，以加快以后的计算。特别是在打电话时persist(StorageLevel.MEMORY_AND_DISK)然后随后在SparkUI的“存储”选项卡中检查RDD被缓存，但存储级别总是显示MemoryDeserialized1xReplicated并且“磁盘上的大小”列显示所有RDD的0.0b。我也尝试了MEMORY_AND_DISK_SER但是获得相同的结果。我很好奇是否有人看过这个，或者我在这里做事不正确。审查火花文档，表明呼叫cache()或者persist()在数据帧上默认为存储级别MEMORY_AND_DISK并使用cacheT

Storagelevel 持久 code 存储 section

hadoop - 如何在 spark 上的 hive 中设置 spark RDD StorageLevel？

在我的hiveonspark作业中，出现此错误:org.apache.spark.shuffle.MetadataFetchFailedException:缺少shuffle0的输出位置感谢您的回答(WhydoSparkjobsfailwithorg.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0inspeculationmode?)，我知道这可能是我的hiveonspark作业有同样的问题由于hive将sql转换为hiveonspark作业，我不知道如何在hive

中设 spark section apache hadoop apache-spark hive hiveql