草庐IT

SaveAsHadoopDataset

全部标签

java - 由于某些未知原因,Spark 作业在 saveAsHadoopDataset 阶段失败,因为执行器丢失

我有一个在yarn上运行的spark作业,它处理大约150gb的数据集,并进行多次随机播放操作,最后将数据存储到hbase中。它在saveAsHadoopDataset处一直失败基本上,多个执行程序在报告高GCActivity后在此阶段失败。但是,执行程序日志、驱动程序日志或节点管理器日志均未指示任何OutOfMemory错误或GCOverheadExceeded错误或超出内存限制错误。我在sparkui中也没有看到执行器失败的任何其他原因。valhConf=HBaseConfiguration.createhConf.setInt("hbase.client.scanner.cach

hadoop - SaveAsHadoopDataset 从不关闭与 zookeeper 的连接

我正在使用下面的代码写入hbasejsonDStream.foreachRDD(newFunction,Void>(){@OverridepublicVoidcall(JavaRDDrdd)throwsException{DataFramejsonFrame=sqlContext.jsonRDD(rdd);DataFrameselecteFieldFrame=jsonFrame.select("id_str","created_at","text");Configurationconfig=HBaseConfiguration.create();config.set("hbase.zo