ruby - 在文本文件中查找与正则表达式匹配的行

coder 2025-04-29 原文

谁能解释一下我如何在 Ruby 中使用正则表达式来只返回字符串的匹配项。

例如，如果代码读取一个包含一系列名称的 .txt 文件:

John Smith
James Jones
David Brown
Tom Davidson
etc etc

.. 并且要匹配的单词被输入为“ohn”，然后它只会返回“John Smith”，但不会返回任何其他名字。

最佳答案

注意:在现代 Rubies 中，不要使用 File.each_line，而是使用 IO.foreach。例如:

[1] pry(main)> IO.foreach('./.bashrc') do |l|
[1] pry(main)*   puts l
[1] pry(main)* end
export PATH=~/bin:$PATH
export EDITOR='vi'
export VISUAL=$EDITOR

进步发生，事情发生变化。

这里有一些不同的方法可以到达您要去的地方。

首先请注意，我正在使用一种更惯用的方式来编写代码以从文件中读取行。 Ruby 的 IO 和文件库使打开、读取和关闭文件变得非常容易，而且是一个漂亮整洁的包。

File.each_line('file.txt') do |li|
  puts li if (li['ohn'])
end

它会在行中的任何位置查找“ohn”，但不会使用正则表达式。

File.each_line('file.txt') do |li|
  puts li if (li[/ohn/])
end

它查找相同的字符串，只是它使用正则表达式到达那里。在功能上它与第一个示例相同。

File.each_line('file.txt') do |li|
  puts li if (li[/ohn\b/])
end

这是查找以“ohn”结尾的名称的更聪明的方法。它使用正则表达式，但也指定模式必须出现在单词的末尾。 \b 表示“字边界”。

此外，在读取文件时，一定要始终提前考虑正在读取的文件是否会超过应用可用的 RAM。一次将整个文件读入内存很容易，然后从 RAM 中对其进行处理，但如果超出可用的物理 RAM，则可能会削弱或终止您的应用程序或机器。

Do you know if the code shown by the other answers is in fact loading the entire file into RAM or is somehow optimized by streaming from the readlines function to the select function?

来自IO#readlines文档:

Reads the entire file specified by name as individual lines, and returns those lines in an array. Lines are separated by sep.

另一个需要考虑的是在大批量读取期间的内存分配。即使您有足够的 RAM，您也可能会遇到这样的情况:一种语言在读取数据时发生阻塞，发现它没有为变量分配足够的内存，并且在获取更多内存时不得不暂停。重复该循环，直到加载整个文件。

多年前，当我将一个非常大的数据文件加载到我管理的 HP 最大 mini 上的 Perl 应用程序时，我对此很敏感。该应用程序会定期暂停几秒钟，我不知道为什么。我进入调试器并找不到问题。最后，通过使用老式打印语句跟踪运行，我将暂停隔离到文件“slurp”。我有足够的 RAM 和足够的处理能力，但 Perl 没有分配足够的内存。我切换到逐行阅读，应用程序快速完成了处理。 Ruby 与 Perl 一样，具有良好的 I/O，并且在逐行读取时可以非常快速地读取大文件。我从来没有找到一个很好的理由来 slurping 一个文本文件，除非我想要的内容可以分布在多行中，但这并不常见。

关于ruby - 在文本文件中查找与正则表达式匹配的行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6002868/

有关ruby - 在文本文件中查找与正则表达式匹配的行的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby-on-rails - rails : keeping DRY with ActiveRecord models that share similar complex attributes - 2
这似乎应该有一个直截了当的答案，但在Google上花了很多时间，所以我找不到它。这可能是缺少正确关键字的情况。在我的RoR应用程序中，我有几个模型共享一种特定类型的字符串属性，该属性具有特殊验证和其他功能。我能想到的最接近的类似示例是表示URL的字符串。这会导致模型中出现大量重复(甚至单元测试中会出现更多重复)，但我不确定如何让它更DRY。我能想到几个可能的方向...按照“validates_url_format_of”插件，但这只会让验证干给这个特殊的字符串它自己的模型，但这看起来很像重溶液为这个特殊的字符串创建一个ruby类，但是我如何得到ActiveRecord关联这个类模型
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby - 如何在 Ruby 中顺序创建 PI - 2
出于纯粹的兴趣，我很好奇如何按顺序创建PI，而不是在过程结果之后生成数字，而是让数字在过程本身生成时显示。如果是这种情况，那么数字可以自行产生，我可以对以前看到的数字实现垃圾收集，从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法，类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

ruby - 在文本文件中查找与正则表达式匹配的行

有关ruby - 在文本文件中查找与正则表达式匹配的行的更多相关文章

随机推荐