草庐IT

java - 从 java map reduce 代码中跳过 header

coder 2024-01-08 原文

我正在尝试获取 csv 文件的摘要,文件的第一行是标题。有没有一种方法可以使每个列的值及其标题名称作为 Java 代码中的键值对。

例如:输入文件是这样的

A,B,C,D

1,2,3,4

5,6,7,8

我希望映射器的输出为 (A,1),(B,2),(C,3),(D,4),(A,5),....

注意:我尝试使用覆盖 Mapper 类中的运行函数来跳过第一行。但据我所知,每次输入拆分都会调用运行函数,因此不适合我的需要。对此的任何帮助将不胜感激。

这是我的映射器的样子:

public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();
        String[] splits = line.split(",",-1);
        int length = splits.length;
    //  count = 0;

        for (int i = 0; i < length; i++) {
            columnName.set(header[i]);      
            context.write(columnName, new Text(splits[i]+""));
        }

    }

    public void run(Context context) throws IOException, InterruptedException
    {        
        setup(context); 
        try 
        {

            if (context.nextKeyValue())
            { 

                Text columnHeader = context.getCurrentValue();
                header =  columnHeader.toString().split(",");

            }    
            while (context.nextKeyValue()) 
            {
                map(context.getCurrentKey(), context.getCurrentValue(), context);
            }
        } 
        finally 
        {
            cleanup(context);
        }      
    }

最佳答案

我假设列标题是字母,列值是数字。

实现此目的的方法之一是使用 DistributedCache。 以下是步骤:

  1. 创建一个包含列标题的文件。
  2. 在驱动程序代码中,通过调用 Job::addCacheFile()
  3. 将该文件添加到分布式缓存中
  4. 在映射器的setup() 方法中,从分布式缓存访问该文件。解析文件内容并将其存储在 columnHeader 列表中。
  5. map() 方法中,检查每条记录中的值是否与标题匹配(存储在 columnnHeader 列表中)。如果是,则忽略该记录(因为该记录只包含标题)。如果否,则将值与列标题一起发出。

这是映射器和驱动程序代码的样子:

司机:

public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    Job job = Job.getInstance(conf, "HeaderParser");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(HeaderParserMapper.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(NullWritable.class);

    job.addCacheFile(new URI("/in/header.txt#header.txt"));
    FileInputFormat.addInputPath(job, new Path("/in/in7.txt"));
    FileOutputFormat.setOutputPath(job, new Path("/out/"));

    System.exit(job.waitForCompletion(true) ? 0:1);
}

驱动程序逻辑:

  • 将“header.txt”(仅包含一行:A,B,C,D)复制到 HDFS
  • 在驱动程序中,通过执行以下语句将“header.txt”添加到分布式缓存中:

    job.addCacheFile(new URI("/in/header.txt#header.txt"));
    

映射器:

public static class HeaderParserMapper
        extends Mapper<LongWritable, Text , Text, NullWritable>{

    String[] headerList;
    String header;

    @Override
    protected void setup(Mapper.Context context) throws IOException, InterruptedException {
        BufferedReader bufferedReader = new BufferedReader(new FileReader("header.txt"));
        header = bufferedReader.readLine();
        headerList = header.split(",");
    }

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();
        String[] values = line.split(",");

        if(headerList.length == values.length && !header.equals(line)) {
            for(int i = 0; i < values.length; i++)
                context.write(new Text(headerList[i] + "," + values[i]), NullWritable.get());
        }
    }
}

映射器逻辑:

  • 覆盖 setup() 方法。
  • setup()方法中读取“header.txt”(放在Driver的分布式缓存中)。
  • map() 方法中,检查行是否与标题匹配。如果是,则忽略该行。否则,将标题和值输出为 (h1,v1)、(h2,v2)、(h3,v3) 和 (h4,v4)。

我在以下输入上运行了这个程序:

A,B,C,D
1,2,3,4
5,6,7,8

我得到以下输出(其中值与相应的 header 匹配):

A,1
A,5
B,2
B,6
C,3
C,7
D,4
D,8

关于java - 从 java map reduce 代码中跳过 header ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34400458/

有关java - 从 java map reduce 代码中跳过 header的更多相关文章

  1. ruby - 如何在 buildr 项目中使用 Ruby 代码? - 2

    如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby​​

  2. ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2

    在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中,它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案 查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has

  3. java - 等价于 Java 中的 Ruby Hash - 2

    我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/

  4. ruby-on-rails - 跳过状态机方法的所有验证 - 2

    当我的预订模型通过rake任务在状态机上转换时,我试图找出如何跳过对ActiveRecord对象的特定实例的验证。我想在reservation.close时跳过所有验证!叫做。希望调用reservation.close!(:validate=>false)之类的东西。仅供引用,我们正在使用https://github.com/pluginaweek/state_machine用于状态机。这是我的预订模型的示例。classReservation["requested","negotiating","approved"])}state_machine:initial=>'requested

  5. ruby-on-rails - 浏览 Ruby 源代码 - 2

    我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码,但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如,我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码?我知道在pry中我可以执行类似show-methodmethod的操作,但我如何才能对Rails框架中的方法执行此操作?您对我如何更好地理解Gem及其API有什么建议吗?仅仅阅读源代码似乎真的很难,尤其是对于框架。谢谢! 最佳答案 Ru

  6. ruby - 模块嵌套代码风格偏好 - 2

    我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个,因为它显然有一个缺点?我有一种直觉,它可能与性能有关,因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。 最佳答案 这两种写作方法经常被混淆。首先要说的是,据我所知,没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别,可能也是最著名的,是你的

  7. ruby - 寻找通过阅读代码确定编程语言的ruby gem? - 2

    几个月前,我读了一篇关于ruby​​gem的博客文章,它可以通过阅读代码本身来确定编程语言。对于我的生活,我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗? 最佳答案 是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem?,我们在StackOverflow上找到一个类似的问题:

  8. java - 从 JRuby 调用 Java 类的问题 - 2

    我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www

  9. ruby - Net::HTTP 获取源代码和状态 - 2

    我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态,而无需发出第二个请求。有没有办法用另一种方法做到这一点?我一直在查看文档,但似乎找不到我要找的东西。 最佳答案 在我看来,除非您需要一些真正的低级访问或控制,否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur

  10. java - 我的模型类或其他类中应该有逻辑吗 - 2

    我只想对我一直在思考的这个问题有其他意见,例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我

随机推荐