草庐IT

Sequencefile

全部标签

java - SequenceFile 不是在 hadoop 中创建的

我正在编写一个MapReduce作业来测试一些计算。我将我的输入分成map,以便每个map都进行部分微积分,结果将是一个(X,y)对的列表,我想将其刷新到SequenceFile中。map部分运行良好,但当Reducer启动时,我收到此错误:Exceptioninthread"main"java.io.FileNotFoundException:Filedoesnotexist:hdfs://172.16.199.132:9000/user/hduser/FractalJob_1452257628594_410365359/out/reduce-out.另一个观察是,只有当我使用mor

hadoop - 创建具有较大 (>1GB) BytesWritable 值大小的 SequenceFile 时出现 NegativeArraySizeException

我尝试了不同的方法来创建一个大型的HadoopSequenceFile只是一个短的(1GB)值(BytesWriteable)。以下示例适用于开箱即用:https://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-jobclient/src/test/java/org/apache/hadoop/mapred/BigMapOutput.java写入多个随机长度的键和值,总大小>3GB。然而,这不是我

hadoop - SequenceFile.Writer的sync和syncFs是什么意思?

环境:Hadoop0.20.2-cdh3u5我正在尝试使用使用SequenceFile.Writer的自定义工具将日志数据(10G)上传到HDFS。SequenceFile.Writerw=SequenceFile.createWriter(hdfs,conf,p,LongWritable.class,Text.class,4096,hdfs.getDefaultReplication(),hdfs.getDefaultBlockSize(),compressionType,codec,null,newMetadata());在上传过程中,如果工具崩溃(没有显式调用close()方法)

读取 hadoop SequenceFile 时出现 java.lang.NoClassDefFoundError

我正在尝试读取其中包含自定义Writeable的SequenceFile。代码如下:publicstaticvoidmain(String[]args)throwsIOException{//StringiFile=null;Stringuri="/tmp/part-r-00000";Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(URI.create(uri),conf);Pathpath=newPath(uri);MyClassvalue=newMyClass();SequenceFile.Reade

ruby - 使用 SequenceFile 的 Hadoop 流式处理(在 AWS 上)

我有大量Hadoop序列文件,我想在AWS上使用Hadoop进行处理。我现有的大部分代码都是用Ruby编写的,因此我想在AmazonEMR上使用HadoopStreaming以及我的自定义RubyMapper和Reducer脚本。我找不到任何关于如何将SequenceFiles与HadoopStreaming集成以及如何将输入提供给我的Ruby脚本的文档。我会很感激一些关于如何启Action业(直接在EMR上,或者只是一个普通的Hadoop命令行)以使用SequenceFiles的说明,以及一些关于如何期望将数据提供给我的脚本的信息。--编辑:我之前错误地提到了StreamFiles而

hadoop - HDFS:使用 HDFS API 附加到 SequenceFile

我一直在尝试使用JavaAPI在HDFS上创建和维护序列文件,而不运行MapReduce作业作为futureMapReduce作业的设置。我想将MapReduce作业的所有输入数据存储在单个序列文件中,但数据会在一天中随着时间的推移而附加。问题是,如果存在SequenceFile,则以下调用只会覆盖SequenceFile而不是附加到它。//fsandconfaresetupforHDFS,notasaLocalFileSystemseqWriter=SequenceFile.createWriter(fs,conf,newPath(hdfsPath),keyClass,valueCl

apache - 如何检查缺少完整模式信息的 Hadoop SequenceFile?

我有一个来自客户的压缩Hadoop序列文件,我想检查一下。我目前没有完整的架构信息(我正在单独处理)。但在此期间(并希望有一个通用解决方案),我有哪些检查文件的选项?我找到了一个工具forqlift:http://www.exmachinatech.net/01/forqlift/并尝试在文件上使用“forqliftlist”。它提示说它无法为包含的自定义子类Writables加载类。所以我需要追踪这些实现。但同时还有其他选择吗?我知道我很可能无法提取数据,但是是否有一些工具可以扫描多少键值以及什么类型? 最佳答案 从外壳:$hdf

scala - 在 Spark 中写入和读取原始字节数组 - 使用序列文件 SequenceFile

如何使用ApacheSpark将RDD[Array[Byte]]写入文件并再次读回? 最佳答案 常见问题似乎是从BytesWritable到NullWritable出现奇怪的无法转换异常。另一个常见问题是BytesWritablegetBytes是一堆完全没有意义的废话,根本得不到字节。getBytes所做的是获取您的字节,而不是在末尾添加大量零!你必须使用copyBytesvalrdd:RDD[Array[Byte]]=???//Towriterdd.map(bytesArray=>(NullWritable.get(),newB