草庐IT

FSDataOutputStream

全部标签

java - 使用Hadoop时OutputStream和FSDataOutputStream有什么区别?

我是Hadoop的新手,在引用一本书时,我看到了一些可以互换使用OutputStream和FSDataOutputStream与HDFS文件系统交互的示例。谁能简要解释一下这两个类之间的区别? 最佳答案 ApacheHadoop使用FSDataOutputStream类在JDK上分层附加功能DataOutputStream.浏览JavaDocs,我们可以看到子类中定义了一些额外的方法:getPos():返回流中的当前位置。hflush():一种特定于HDFS的附加功能,允许调用者刷新文件数据并使其对同一文件的并发读取器可见。hsyn

java - spark java api 有像 hadoop MultipleOutputs/FSDataOutputStream 这样的类吗?

我试图在减少部分输出一些特定的记录,这取决于键值记录的值。在hadoopmapreduce中可以使用类似的代码publicvoidsetup(Contextcontext)throwsIOException,InterruptedException{super.setup(context);Configurationconf=context.getConfiguration();FileSystemfs=FileSystem.get(conf);inttaskID=context.getTaskAttemptID().getTaskID().getId();hdfsOutWriter=