请原谅我的新手问题。我曾尝试搜索答案,但考虑到关键字,搜索此类内容非常困难...
我正在使用 Lucene 5.2.x 来索引一组文档,每个文档都有两个字段:id 和 description。
我从系统中的先前查询中获得了一组 ids。现在,我想获取有关 description 的 Lucene 文本搜索结果,但只能来自 ids 集合中的文档。如果我在 MySQL 中(天真地)这样做,我可能会做类似的事情:
SELECT * FROM mytable
WHERE description LIKE 'blah%'
AND
id IN (6345, 5759, 333, ...)
ids 的集合可能有数万个。使用 Lucene 的最佳方法是什么?我可以构造一个 Lucene 查询来有效地处理这个问题,还是应该搜索我的整个文档索引然后进行集合交集?还有别的吗?
谢谢!
最佳答案
I would like to get Lucene text search results on the description but only from documents in the set of
ids.
您需要使用BooleanQuery。
如果您使用 QueryParser 创建查询,则使用:
+(id:6345 id:5759 id:333 ...) +(description:"blah*")
如果您以编程方式创建查询,那么代码将类似于:
BooleanQuery ids = new BooleanQuery();
ids.add(new TermQuery(new Term("id", "6345")), SHOULD);
ids.add(new TermQuery(new Term("id", "5759")), SHOULD);
ids.add(new TermQuery(new Term("id", "333")), SHOULD);
BooleanQuery resultQuery = new BooleanQuery();
resultQuery.add(new PrefixQuery(new Term("description", "blah")), MUST);
resultQuery.add(ids, MUST);
The set of
idsmaybe tens of thousands.
BooleanQuery 已将其限制为子句的最大数量(请参阅 org.apache.lucene.search.BooleanQuery#maxClauseCount)。您需要使用 BooleanQuery.setMaxClauseCount() 增加此限制。这将要求您以编程方式创建查询。
Can I construct a Lucene query to handle this efficiently, or should I search my entire document index and then do a set intersection? Something else?
据我所知,倒排索引是目前人类已知的最高效的搜索方式。至少,从搜索时间的角度来看(不考虑索引阶段)。
因此,如果关注效率,我建议将所有搜索逻辑移至 Lucene(倒排索引库)。作为一个非常成熟的库,Lucene 可以搜索几乎所有类型的信息。因此,可能您的所有文档都可以在 Lucene 中建立索引,并且所有“先前的查询”也可以在 Lucene 中执行。
在那种情况下,就没有必要将数千个 id 作为附加过滤器发送到 Lucene,这确实看起来很浪费。除非您有一些独特的搜索要求,否则这是我能想到的最有效的搜索方式。
关于java - Lucene - 相当于 SQL "IN"关键字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31029351/
我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身,new.html.erb,有代码:当我运行rspec时,它失败了:1)messages/new.html.erbshou
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中,我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中,它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案 查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
我看到这个错误:translationmissing:da.datetime.distance_in_words.about_x_hours我的语言环境文件:http://pastie.org/2944890我的看法:我已将其添加到我的application.rb中:config.i18n.load_path+=Dir[Rails.root.join('my','locales','*.{rb,yml}').to_s]config.i18n.default_locale=:da如果我删除I18配置,帮助程序会处理英语。更新:我在config/enviorments/devolpment
为了将Cucumber用于命令行脚本,我按照提供的说明安装了arubagem。它在我的Gemfile中,我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作,我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了,但失败的原因是错误的:@announceScenario:Testingcucumber/ar
我已经像这样安装了一个新的Rails项目:$railsnewsite它执行并到达:bundleinstall但是当它似乎尝试安装依赖项时我得到了这个错误Gem::Ext::BuildError:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcheckingforlibkern/OSAtomic.h...yescreatingMakefilemake"DESTDIR="cleanmake"DESTDIR="
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/
我遵循MichaelHartl的“RubyonRails教程:学习Web开发”,并创建了检查用户名和电子邮件长度有效性的测试(名称最多50个字符,电子邮件最多255个字符)。test/helpers/application_helper_test.rb的内容是:require'test_helper'classApplicationHelperTest在运行bundleexecraketest时,所有测试都通过了,但我看到以下消息在最后被标记为错误:ERROR["test_full_title_helper",ApplicationHelperTest,1.820016791]test
我正在尝试从Postgresql表(table1)中获取数据,该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中,我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤,而不是严格相等。然而,这是行不通的:scope:my_scope,->(que
我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常,除了该文件不是公开可用的,而且我无法获得它的公共(public)URL。但是当我登录到S3时,我可以正常查看我的文件。为了使其公开可用,我将最后一行更改为obj.upload_file(file