java - Lucene - 相当于 SQL "IN"关键字

coder 2024-04-02 原文

请原谅我的新手问题。我曾尝试搜索答案，但考虑到关键字，搜索此类内容非常困难...

我正在使用 Lucene 5.2.x 来索引一组文档，每个文档都有两个字段:id 和 description。

我从系统中的先前查询中获得了一组 ids。现在，我想获取有关 description 的 Lucene 文本搜索结果，但只能来自 ids 集合中的文档。如果我在 MySQL 中(天真地)这样做，我可能会做类似的事情:

SELECT * FROM mytable 
    WHERE description LIKE 'blah%' 
          AND 
          id IN (6345, 5759, 333, ...)

ids 的集合可能有数万个。使用 Lucene 的最佳方法是什么？我可以构造一个 Lucene 查询来有效地处理这个问题，还是应该搜索我的整个文档索引然后进行集合交集？还有别的吗？

谢谢!

最佳答案

I would like to get Lucene text search results on the description but only from documents in the set of ids.

您需要使用BooleanQuery。

如果您使用 QueryParser 创建查询，则使用:

+(id:6345 id:5759 id:333 ...) +(description:"blah*")

如果您以编程方式创建查询，那么代码将类似于:

BooleanQuery ids = new BooleanQuery();
ids.add(new TermQuery(new Term("id", "6345")), SHOULD);
ids.add(new TermQuery(new Term("id", "5759")), SHOULD);
ids.add(new TermQuery(new Term("id", "333")), SHOULD);

BooleanQuery resultQuery = new BooleanQuery();
resultQuery.add(new PrefixQuery(new Term("description", "blah")), MUST);
resultQuery.add(ids, MUST);

The set of ids maybe tens of thousands.

BooleanQuery 已将其限制为子句的最大数量(请参阅 org.apache.lucene.search.BooleanQuery#maxClauseCount)。您需要使用 BooleanQuery.setMaxClauseCount() 增加此限制。这将要求您以编程方式创建查询。

Can I construct a Lucene query to handle this efficiently, or should I search my entire document index and then do a set intersection? Something else?

据我所知，倒排索引是目前人类已知的最高效的搜索方式。至少，从搜索时间的角度来看(不考虑索引阶段)。

因此，如果关注效率，我建议将所有搜索逻辑移至 Lucene(倒排索引库)。作为一个非常成熟的库，Lucene 可以搜索几乎所有类型的信息。因此，可能您的所有文档都可以在 Lucene 中建立索引，并且所有“先前的查询”也可以在 Lucene 中执行。

在那种情况下，就没有必要将数千个 id 作为附加过滤器发送到 Lucene，这确实看起来很浪费。除非您有一些独特的搜索要求，否则这是我能想到的最有效的搜索方式。

关于java - Lucene - 相当于 SQL "IN"关键字，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31029351/

amp 相当 code Lucene BooleanQuery java

有关java - Lucene - 相当于 SQL "IN"关键字的更多相关文章

ruby-on-rails - rails : "missing partial" when calling 'render' in RSpec test - 2
我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身，new.html.erb，有代码:当我运行rspec时，它失败了:1)messages/new.html.erbshou
ruby-on-rails - 由于 "wkhtmltopdf"，PDFKIT 显然无法正常工作 - 2
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中，我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - Rails 3 I18 : translation missing: da. datetime.distance_in_words.about_x_hours - 2
我看到这个错误:translationmissing:da.datetime.distance_in_words.about_x_hours我的语言环境文件:http://pastie.org/2944890我的看法:我已将其添加到我的application.rb中:config.i18n.load_path+=Dir[Rails.root.join('my','locales','*.{rb,yml}').to_s]config.i18n.default_locale=:da如果我删除I18配置，帮助程序会处理英语。更新:我在config/enviorments/devolpment
ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2
为了将Cucumber用于命令行脚本，我按照提供的说明安装了arubagem。它在我的Gemfile中，我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作，我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了，但失败的原因是错误的:@announceScenario:Testingcucumber/ar
ruby-on-rails - 新 Rails 项目 : 'bundle install' can't install rails in gemfile - 2
我已经像这样安装了一个新的Rails项目:$railsnewsite它执行并到达:bundleinstall但是当它似乎尝试安装依赖项时我得到了这个错误Gem::Ext::BuildError:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcheckingforlibkern/OSAtomic.h...yescreatingMakefilemake"DESTDIR="cleanmake"DESTDIR="
java - 等价于 Java 中的 Ruby Hash - 2
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么？最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设？关于java-等价于Java中的RubyHash，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/22737685/
ruby-on-rails - 迷你测试错误 : "NameError: uninitialized constant" - 2
我遵循MichaelHartl的“RubyonRails教程:学习Web开发”，并创建了检查用户名和电子邮件长度有效性的测试(名称最多50个字符，电子邮件最多255个字符)。test/helpers/application_helper_test.rb的内容是:require'test_helper'classApplicationHelperTest在运行bundleexecraketest时，所有测试都通过了，但我看到以下消息在最后被标记为错误:ERROR["test_full_title_helper",ApplicationHelperTest,1.820016791]test
ruby-on-rails - 相关表上的范围为 "WHERE ... LIKE" - 2
我正在尝试从Postgresql表(table1)中获取数据，该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中，我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤，而不是严格相等。然而，这是行不通的:scope:my_scope,->(que
使用 ACL 调用 upload_file 时出现 Ruby S3 "Access Denied"错误 - 2
我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常，除了该文件不是公开可用的，而且我无法获得它的公共(public)URL。但是当我登录到S3时，我可以正常查看我的文件。为了使其公开可用，我将最后一行更改为obj.upload_file(file

java - Lucene - 相当于 SQL "IN"关键字

有关java - Lucene - 相当于 SQL "IN"关键字的更多相关文章

随机推荐