草庐IT

globStatus

全部标签

java - 由于 globStatus,MapReduce 作业未产生输出

我不确定为什么我的Mapper和Reducer没有输出。我的代码背后的逻辑是,给定一个UUID文件(新行分隔),我想使用globStatus显示UUID可能所在的所有潜在文件的所有路径。打开并阅读文件。每个文件包含1-n行JSON。UUID在JSON中的event_header.event_id中。现在MapReduce作业运行没有错误。但是,出了点问题,因为我没有任何输出。我也不确定如何调试MapReduce作业。如果有人可以为我提供一个很棒的资源!这个程序的预期输出应该是fee90c3f-e832-4267-aa9b-250f53kc06d31914938ae-eed6-4dfa-

hadoop - 使用 globStatus 和 Google Cloud Storage 存储桶作为输入时无法运行 Spark 作业

我正在使用Spark1.1。我有一个Spark作业,它只在存储桶下寻找特定模式的文件夹(即以...开头的文件夹),并且应该只处理那些。我通过执行以下操作实现了这一点:FileSystemfs=FileSystem.get(newConfiguration(true));FileStatus[]statusArr=fs.globStatus(newPath(inputPath));ListstatusList=Arrays.asList(statusArr);ListpathsStr=convertFileStatusToPath(statusList);JavaRDDpaths=sc.

java - 强制 HDFS globStatus 跳过它没有权限的目录

所以我需要从HDFS收集大量目录,它们本身包含子目录,并且我希望能够使用globStatus。我的路径模式基本上是这样的:"/directory/*/{opt1,opt2}/{opt1,opt2,opt3}*"不幸的是,对于*捕获的某些目录,我没有执行权限(无法查看内容),但glob试图查看内部,导致异常。有什么方法可以请求glob跳过它没有权限的目录,而不是完全失败?我知道还有其他方法可以实现相同的目标,但据我所知,它会更复杂,而且我认为需要向HDFS发出更多请求,而不是简单的glob。 最佳答案 回答这个问题以防其他人遇到这个问