java - 如何比较大文本文件？

coder 2024-03-06 原文

我有一个关于您对我的“技术”的看法的一般性问题。

有 2 个文本文件(file_1 和 file_2)需要相互比较。两者都非常庞大(3-4 GB，每行 30,000,000 到 45,000,000 行)。我的想法是将 file_1 的几行(尽可能多)读入内存，然后将它们与 file_2 的所有行进行比较。如果匹配，则两个文件中匹配的行应写入新文件。然后继续 file_1 的下 1000 行，并将它们与 file_2 的所有行进行比较，直到我完成 file_1完全。

但这对我来说听起来确实非常非常耗时且复杂。您能想出任何其他方法来比较这两个文件吗？

您认为比较需要多长时间？对于我的程序，时间并不重要。我没有处理如此大文件的经验，因此我不知道这可能需要多长时间。不过应该不会超过一天。 ;-) 但我担心我的技术可能需要永远……

我刚刚想到的另一个问题:你会读入内存多少行？越多越好？有没有办法在实际尝试之前确定可能的行数？我想尽可能多地阅读(因为我认为那样更快)，但我经常用完内存。

提前致谢。

编辑我想我必须多解释一下我的问题。

目的不是查看这两个文件一般是否相同(它们不相同)。每个文件中都有一些行具有相同的“特征”。这是一个例子: file_1 看起来有点像这样:

mat1 1000 2000 TEXT      //this means the range is from 1000 - 2000
mat1 2040 2050 TEXT
mat3 10000 10010 TEXT
mat2 20 500 TEXT

file_2看起来像这样:

mat3 10009 TEXT
mat3 200 TEXT
mat1 999 TEXT

TEXT 指的是我不感兴趣的字符和数字，mat 可以从 mat1 - mat50 并且没有顺序;也可以有 1000x mat2(但下一列中的数字不同)。我需要以如下方式找到拟合线:matX 在两个比较线中是相同的，file_2 中提到的数字符合 file_1 中提到的范围。因此，在我的示例中，我会找到一个匹配项:file_1 的第 3 行和 file_2 的第 1 行(因为两者都是 mat3，并且 10009 在 10000 和 10010 之间)。我希望这能让您明白!

所以我的问题是:您将如何搜索匹配行？

是的，我使用 Java 作为我的编程语言。

编辑我现在先划分大文件，这样我就不会出现内存不足的问题。我还认为将(许多)较小的文件相互比较比这两个大文件更快。之后我可以按照我上面提到的方式比较它们。这可能不是完美的方式，但我仍在学习 ;-) 尽管如此，您所有的方法对我都非常有帮助，感谢您的回复!

最佳答案

我觉得，你的做法还是比较合理的。

我可以想象不同的策略——例如，您可以在比较之前对两个文件进行排序(文件排序的高效实现在哪里，unix 排序实用程序可以在几分钟内对几个 Gbs 文件进行排序)，并且在排序时，您可以比较文件依次，逐行阅读。

但这是相当复杂的方法——您需要运行外部程序(排序)，或者自己在 Java 中编写相当高效的文件排序实现——这本身并不是一项容易的任务。因此，为了简单起见，我认为您的分块读取方式非常有前途；

至于如何找到合理的block——首先，“越多越好”可能是不正确的——我认为，所有工作的时间都会渐进地增长，到某个常数线。因此，您可能会比您想象的更快地接近那条线——为此您需要基准。

接下来——你可以像这样读取缓冲行:

final List<String> lines = new ArrayList<>();
try{
    final List<String> block = new ArrayList<>(BLOCK_SIZE);
    for(int i=0;i<BLOCK_SIZE;i++){
       final String line = ...;//read line from file
       block.add(line);
    }
    lines.addAll(block); 
}catch(OutOfMemory ooe){
    //break
}

因此，您尽可能多地读取行——留下最后一 block BLOCK_SIZE 的可用内存。 BLOCK_SIZE 应该大到足以让您的其他程序在没有 OOM 的情况下运行

关于java - 如何比较大文本文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7107517/

本文 java code file section comparison

有关java - 如何比较大文本文件？的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息？最佳答案在Rails3中，update_all不返回任何有意义的信息，除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
ruby - 如何每月在 Heroku 运行一次 Scheduler 插件？ - 2
在选择我想要运行操作的频率时，唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。最佳答案这不是一个优雅的解决方案，但您可以安排它每天运行，并在实际开始工作之前检查日期是否为当月的第一天。关于ruby-如何每月在Heroku运行一次Scheduler插件？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/8692687/
ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据，就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理？我没有在文档中找到任何内容。最佳答案我遇到了同样的问题；这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML，但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中，将我的XML代码修改为
ruby - 如何使用文字标量样式在 YAML 中转储字符串？ - 2
我有一大串格式化数据(例如JSON)，我想使用Psychinruby同时保留格式转储到YAML。基本上，我希望JSON使用literalstyle出现在YAML中:---json:|{"page":1,"results":["item","another"],"total_pages":0}但是，当我使用YAML.dump时，它不使用文字样式。我得到这样的东西:---json:!"{\n\"page\":1,\n\"results\":[\n\"item\",\"another\"\n],\n\"total_pages\":0\n}\n"我如何告诉Psych以想要的样式转储标量？解

java - 如何比较大文本文件？

有关java - 如何比较大文本文件？的更多相关文章

随机推荐