草庐IT

linux - grep 但可索引?

coder 2023-06-16 原文

我有超过 200mb 的源代码文件需要不断查找(我是一个非常大的团队的一员)。我注意到 grep 不会创建索引,因此每次查找都需要遍历整个源代码数据库。

是否有类似于 grep 的具有索引功能的命令行实用程序?

最佳答案

下面的解决方案相当简单。他们没有涵盖很多极端情况:

  • 搜索行首 ^
  • 包含\n 或 : 的文件名将失败
  • 包含空格的文件名将失败(尽管可以使用 GNU Parallel 而不是 xargs 来修复)
  • 搜索与另一个文件的路径匹配的字符串将是次优的

这些解决方案的优点在于它们非常易于实现。

方案一:一个大文件

事实:查找非常慢,读取一个大文件通常更快。

考虑到这些事实,我们的想法是简单地创建一个包含所有文件及其所有内容的索引——每行前面加上文件名和行号:

索引目录:

find . -type f -print0 | xargs -0 grep -Han . > .index

使用索引:

grep foo .index

解决方案 2:一个大的压缩文件

事实:硬盘速度很慢。寻找是非常缓慢的。多核 CPU 是正常的。

因此,读取压缩文件并即时解压缩它可能比读取未压缩文件更快 - 特别是如果您有足够的 RAM 来缓存压缩文件但不足以缓存未压缩文件。

索引目录:

find . -type f -print0 | xargs -0 grep -Han . | pbzip2 > .index

使用索引:

pbzcat .index | grep foo

解决方案 3:使用索引寻找潜在候选人

生成索引可能很耗时,您可能不希望对目录中的每一次更改都这样做。

为了加快速度,只使用索引来识别可能匹配的文件名,并通过这些(希望数量有限的)文件进行实际的 grep。这将发现不再匹配的文件,但不会发现匹配的新文件。

需要 sort -u 来避免多次 grep 同一个文件。

索引目录:

find . -type f -print0 | xargs -0 grep -Han . | pbzip2 > .index

使用索引:

pbzcat .index | grep foo | sed s/:.*// | sort -u | xargs grep foo

解决方案 4:附加到索引

重新创建完整索引可能会非常慢。如果大部分目录保持不变,您可以简单地将新更改的文件附加到索引。该索引将再次仅用于定位潜在的候选者,因此如果文件不再匹配,将在 grep 遍历实际文件时发现它。

索引目录:

find . -type f -print0 | xargs -0 grep -Han . | pbzip2 > .index

附加到索引:

find . -type f -newer .index -print0 | xargs -0 grep -Han . | pbzip2 >> .index

使用索引:

pbzcat .index | grep foo | sed s/:.*// | sort -u | xargs grep foo

如果使用 pzstd 而不是 pbzip2/pbzcat,速度会更快。

方案五:使用git

git grep 可以 grep 通过 git 存储库。但它似乎做了很多查找,并且在我的系统上比解决方案 4 慢 4 倍。

好的部分是 .git 索引比 .index.bz2 小。

索引目录:

git init
git add .

附加到索引:

git add .

使用索引:

git grep foo

方案六:优化git

Git 将其数据放入许多小文件中。这导致寻求。但是你可以让 git 将小文件压缩成几个更大的文件:

git gc --aggressive

这需要一段时间,但它可以非常有效地在几个文件中打包索引。

现在您可以:

find .git  -type f | xargs cat >/dev/null
git grep foo

git 会在索引中进行大量查找,但是通过先运行 cat,您可以将整个索引放入 RAM。

添加到索引和方案5一样,但是时不时的运行git gc来避免很多小文件,git gc --aggressive来保存更多的磁盘空间,当系统空闲时。

如果您删除文件,

git 将不会释放磁盘空间。因此,如果您删除大量数据,请删除 .git 并执行 git init; git add . 再次。

关于linux - grep 但可索引?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7734596/

有关linux - grep 但可索引?的更多相关文章

  1. ruby-on-rails - 协会的 Rails 索引 - 2

    我发现自己需要这个。假设cart是一个包含用户列表的模型。defindex_of_itemcart.users.each_with_indexdo|u,i|ifu==current_userreturniendend获取此类关联索引的更简单方法是什么? 最佳答案 indexArray上的方法与您的index_of_item方法相同,例如cart.users.index(current_user)返回数组中第一个对象的索引==给obj。如果未找到匹配项,则返回nil。 关于ruby-on-

  2. ruby - Rails -- :id attribute? 所需的数据库索引 - 2

    因此,当我遵循MichaelHartl的RubyonRails教程时,我注意到在用户表中,我们为:email属性添加了一个唯一索引,以提高find的效率方法,因此它不会逐行搜索。到目前为止,我们一直在根据情况使用find_by_email和find_by_id进行搜索。然而,我们从未为:id属性设置索引。:id是否自动索引,因为它在默认情况下是唯一的并且本质上是顺序的?或者情况并非如此,我应该为:id搜索添加索引吗? 最佳答案 大多数数据库(包括sqlite,这是RoR中的默认数据库)会自动索引主键,对于RailsMigration

  3. ruby - 引用具有指定索引的枚举器值 - 2

    假设我有一个可枚举对象enum,现在我想获取第三个项目。我知道一种通用方法是转换成数组,然后使用索引访问,如:enum.to_a[2]但这种方式会创建一个临时数组,效率可能很低。现在我使用:enum.each_with_index{|v,i|breakvifi==2}但这非常丑陋和多余。执行此操作最有效的方法是什么? 最佳答案 你可以使用take剥离前三个元素,然后剥离last从take给你的数组中获取第三个元素:third=enum.take(3).last如果您根本不想生成任何数组,那么也许:#Ifenumisn'tanEnum

  4. ruby - 404 未找到,但可以从网络浏览器正常访问 - 2

    我在这方面尝试了很多URL,在我遇到这个特定的之前,它们似乎都很好:require'rubygems'require'nokogiri'require'open-uri'doc=Nokogiri::HTML(open("http://www.moxyst.com/fashion/men-clothing/underwear.html"))putsdoc这是结果:/Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:353:in`open_http':404NotFound(OpenURI::HT

  5. ruby - 将 Logstash 中的时间戳时区转换为输出索引名称 - 2

    在我的场景中,Logstash收到的系统日志行的“时间戳”是UTC,我们在Elasticsearch输出中使用事件“时间戳”:output{elasticsearch{embedded=>falsehost=>localhostport=>9200protocol=>httpcluster=>'elasticsearch'index=>"syslog-%{+YYYY.MM.dd}"}}我的问题是,在UTC午夜,Logstash在外时区(GMT-4=>America/Montreal)结束前将日志发送到不同的索引,并且索引在20小时(晚上8点)之后没有日志,因为“时间戳”是UTC。我们已

  6. ruby - 从特定索引开始迭代数组 - 2

    我想从特定索引开始遍历数组。我该怎么做?myj.eachdo|temp|...end 最佳答案 执行以下操作:your_array[your_index..-1].eachdo|temp|###end 关于ruby-从特定索引开始迭代数组,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/44151758/

  7. ruby - Array of Arrays,根据索引处的数组内容删除一个索引? - 2

    我一直在努力学习如何处理由数组组成的数组。假设我有这个数组:my_array=[['ORANGE',1],['APPLE',2],['PEACH',3]我将如何找到包含'apple'的my_array索引并删除该索引(删除子数组['APPLE',2]因为'apple'包含在该索引的数组中)?谢谢-我非常感谢这里的帮助。 最佳答案 您可以使用Array.select过滤掉项目:>>a=[['ORANGE',1],['APPLE',2],['PEACH',3]]=>[["ORANGE",1],["APPLE",2],["PEACH",3

  8. ruby - 如何使用部分字符串搜索数组并返回索引? - 2

    我想使用部分字符串搜索数组,然后获取找到该字符串的索引。例如:a=["Thisisline1","Wehaveline2here","andfinallyline3","potato"]a.index("potato")#thisreturns3a.index("Wehave")#thisreturnsnil使用a.grep将返回完整的字符串,使用a.any?将返回正确的true/false语句,但都不会返回匹配的索引找到了,或者至少我不知道该怎么做。我正在编写一段代码,该代码读取文件、查找特定header,然后返回该header的索引,以便它可以将其用作future搜索的偏移量。如果

  9. ruby-on-rails - Rails 4 从迁移索引中删除迁移 ID - 2

    如何在rakedb:migrate:status中删除带有“**NOFILE**”的迁移ID列表?例如:StatusMigrationIDMigrationName--------------------------------------------------up20131017204224Createusersup20131218005823**********NOFILE**********up20131218011334**********NOFILE**********我不明白为什么当我自己手动删除它时它仍然保留旧的迁移文件,因为我正在研究迁移的工作原理。这是为了记录吗?但

  10. 【Linux操作系统】——网络配置与SSH远程 - 2

    Linux操作系统——网络配置与SSH远程安装完VMware与系统后,需要进行网络配置。第一个目标为进行SSH连接,可以从本机到VMware进行文件传送,首先需要进行网络配置。1.下载远程软件首先需要先下载安装一款远程软件:FinalShell或者xhell7FinalShellxhell7FinalShell下载:Windows下载http://www.hostbuf.com/downloads/finalshell_install.exemacOS下载http://www.hostbuf.com/downloads/finalshell_install.pkg2.配置CentOS网络安装好

随机推荐