草庐IT

hadoop - 追加到现有序列文件

coder 2024-01-10 原文

有人可以提供示例代码片段以说明如何将文件附加到现有序列文件中吗?

下面是我用来附加到现有序列文件输出文件的代码,但是在附加后读取序列文件时它抛出校验和错误:

打开校验和文件时出现问题:/Users/{homedirectory}/Desktop/Sample/SequenceFile/outputfile。忽略异常:java.io.EOFException

public class AppendSequenceFile {

    /**
     * @param args
     * @throws IOException
     * @throws IllegalAccessException
     * @throws InstantiationException
     */
    public static void main(String[] args) throws IOException,
            InstantiationException, IllegalAccessException {

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(conf);
        Path inputFile = new Path("/Users/{homedirectory}/Desktop/Sample/SequenceFile/sampleAppendTextFiles");
        Path sequenceFile = new Path("/Users/{homedirectory}/Desktop/Sample/SequenceFile/outputfile");
        FSDataInputStream inputStream;
        Text key = new Text();
        Text value = new Text();
        SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf,
                sequenceFile, key.getClass(), value.getClass());
        FileStatus[] fStatus = fs.listStatus(inputFile);

        for (FileStatus fst : fStatus) {
            String str = "";
            System.out.println("Processing file : " + fst.getPath().getName() + " and the size is : " + fst.getPath().getName().length());
            inputStream = fs.open(fst.getPath());
            key.set(fst.getPath().getName());
            while(inputStream.available()>0) {
                str = str+inputStream.readLine();
            }
            value.set(str);
            writer.append(key, value);

        }
    }
}

序列文件阅读器:

public class SequenceFileReader{
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        Path path = new Path("/Users/{homedirectory}/Desktop/Sample/SequenceFile/outputfile");
        SequenceFile.Reader reader = null;
        try {
            reader = new SequenceFile.Reader(fs, path, conf);
            Text key = new Text();
            Text value = new Text();
            while (reader.next(key, value)) { System.out.println(key);
            System.out.println(value);
            }
        } finally {
            IOUtils.closeStream(reader);
        }
    }
}

提前致谢。

最佳答案

我自己没有这样做,但是浏览 Hadoop API 文档时我发现了这一点。

您可以使用此 API 来创建编写器。请引用SequenceFile

public static org.apache.hadoop.io.SequenceFile.Writer createWriter(FileContext fc,Configuration conf,Path name,Class keyClass,Class valClass,org.apache.hadoop.io.SequenceFile.CompressionType compressionType,CompressionCodec codec,org.apache.hadoop.io.SequenceFile.Metadata metadata,EnumSet<CreateFlag> createFlag,org.apache.hadoop.fs.Options.CreateOpts... opts) throws IOException

在此 API 中,CreateFlag可以帮助您指定“APPEND”选项。

关于hadoop - 追加到现有序列文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41344290/

有关hadoop - 追加到现有序列文件的更多相关文章

  1. ruby - 在哈希的键数组中追加元素 - 2

    查看我的Ruby代码:h=Hash.new([])h[0]=:word1h[1]=h[1]输出是:Hash={0=>:word1,1=>[:word2,:word3],2=>[:word2,:word3]}我希望有Hash={0=>:word1,1=>[:word2],2=>[:word3]}为什么要附加第二个哈希元素(数组)?如何将新数组元素附加到第三个哈希元素? 最佳答案 如果您提供单个值作为Hash.new的参数(例如Hash.new([]),完全相同的对象将用作每个缺失键的默认值。这就是您所拥有的,那是你不想要的。您可以改用

  2. hadoop安装之保姆级教程(二)之YARN的配置 - 2

    1.1.1 YARN的介绍 为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN. ApacheYARN(YetanotherResourceNegotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式的操作系统平台,⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现,但是因为具有⾜够的通⽤性,同样可以⽀持其他的分布式计算模

  3. 大数据之Hadoop数据仓库Hive - 2

    目录:一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为MapReduce作业,然后提交到Hadoop上运行。特点:简单、容易上手(提供了类似sql的查询语言hql),使得精通sql但是不了解Java编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数(UDF)和

  4. ruby - 数组分配与追加行为 - 2

    在我看来,以下行为就像assign方法正在按值处理visited,而append方法将其视为引用:classMyClassdefassign(visited)visited+=["A"]enddefappend(visited)visited[]instance.append(visited)visited#=>["A"]有人可以解释这种行为吗?这不是关于Ruby是否支持按引用传递或按值传递的问题,而是关于下面提供的示例,以及为什么两个据称执行相同操作的方法表现出不同行为的问题。 最佳答案 您在第一个方法中重新定义了局部变量。这是一

  5. Ubuntu下Hadoop的单机安装 - 2

            云计算实验中要求我们在Linux系统安装Hadoop,故来做一个简单的记录。· 注:我的操作系统环境是Ubuntu-20.04.3,安装的JDK版本为jdk1.8.0_301,安装的Hadoop版本为hadoop2.7.1。(不确定其他版本是否会出现版本兼容问题)Hadoop安装步骤如下:        一、更新apt和安装vim编辑器        二、配置本机无密码登录SSH        三、安装JAVA环境        四、下载安装Hadoop        五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim

  6. ruby-on-rails - 给定有序的 id 列表对对象数组进行排序 - 2

    我有一组对象@users,每个对象都有其id属性。@users=[#,#]我还有一个有序的ids数组。ids=[2,1]¿是否有一种神奇的方法可以使用该ID列表对集合进行排序?如果可能,不再次调用数据库。谢谢!!! 最佳答案 其实你不需要排序,建立一个中间的索引散列,它是O(n):users_by_id=Hash[@users.map{|u|[u.id,u]}]users_by_id.values_at(*ids)如果您仍想尝试排序方法,Schwartziantransform就足够了:@users.sort_by{|u|ids.i

  7. ruby-on-rails - 如何在 Ruby 中追加一个字符串 - 2

    我只是想在此字符串的末尾添加一个“/”。执行此操作的最佳方法是什么?>>params[:id]"shirts"我想制作params[:id]=="shirts/"。如何在该字符串的末尾添加/? 最佳答案 最简单的:params[:id]=params[:id]+'/'或params[:id]+='/'莫尔幻想:params[:id]另一种方法:params[:id].concat'/'如果你真的出于某种奇怪的原因坚持使用gsub:params[:id].gsub!/$/,'/' 关于ru

  8. ruby-on-rails - ruby 或 rails 中有序数到基数的函数吗? - 2

    我正试图找到一种更好的方式来表达我的cucumber,所以我正在寻找一个将其转换为基数的函数:WhenIfillupthefirstpassengerfieldThenIshouldseethepassengerlistupdatewiththefirstpassengerdetailsWhenIfollow"AddAnotherPassenger"ThenIshouldseeasecondpassengerfieldWhenIfillupthesecondpassengerfieldThenIshouldseethepassengerlistupdatewiththesecondpa

  9. ruby - 除了将其转换为数组之外,还有什么方法可以获取有序哈希的第 N 个键或值吗? - 2

    在Ruby1.9.x中,我有一个维持其顺序的散列hsh={9=>2,8=>3,5=>2,4=>2,2=>1}除此之外还有其他方法可以说出第三个元素的键:hsh.to_a[2][0] 最佳答案 尝试使用Hash#keys和Hash#values:thirdKey=hsh.keys[2]thirdValue=hsh.values[2] 关于ruby-除了将其转换为数组之外,还有什么方法可以获取有序哈希的第N个键或值吗?,我们在StackOverflow上找到一个类似的问题:

  10. ruby - 如何在 Ruby 1.9 中只获取有序哈希的一个子集? - 2

    让我们举个例子:d={"a"=>1,"b"=>2,"c"=>3,"d"=>4}由于哈希现在是有序的,我可能想要从a到b或从c到d。问题是我无法执行d[0..1]或d[2..3]。不过我可以这样做:irb>d.to_a[0..1]=>[["a",1],["b",2]]...但这感觉很乱,我不想为这样的操作转换我的哈希值。是否有更清洁的解决方案来处理这个问题?#HolyGrailirb>d[0..1]=>{"a"=>1,"b"=>2}我可以看到如何为自己编写这样的方法,但可能已经有一些原生的东西我可以使用...? 最佳答案 你可以这样做

随机推荐