我有一个数据集,在底层文本上有多层注释,例如 part-of-tags , chunks from a shallow parser , name entities , 和其他来自各种 natural language processing (自然语言处理)工具。对于像 The man went to the store 这样的句子,注释可能如下所示:
Word POS Chunk NER ==== === ===== ======== The DT NP Person man NN NP Person went VBD VP - to TO PP - the DT NP Location store NN NP Location
我想使用 Lucene 为一堆带有注释的文档编制索引,然后跨不同层执行搜索。一个简单查询的示例是检索所有将 Washington 标记为 person 的文档。虽然我并不完全遵守该表示法,但从句法上讲,最终用户可能会按如下方式输入查询:
查询:Word=Washington,NER=Person
我还想做更复杂的查询,涉及跨不同层的注释的顺序,例如找到所有文档,其中有一个标记为 person 的词,后面跟着 arrived at 后面跟着一个标记为 location 的词.这样的查询可能看起来像:
查询:"NER=Person Word=arrived Word=at NER=Location"
用 Lucene 解决这个问题的好方法是什么?是否有索引和搜索包含结构化标记的文档字段?
有效负载
一个建议是尝试使用 Lucene payloads .但是,我认为有效载荷只能用于调整文档的排名,而不是用于选择返回哪些文档。
后者很重要,因为对于某些用例,包含模式的文档数确实是我想要的。
此外,仅检查与查询匹配的术语的有效负载。这意味着有效负载甚至只能帮助第一个示例查询的排名,Word=Washington,NER=Person,因此我们只想确保术语Washingonton 被标记为 Person。然而,对于第二个示例查询,"NER=Person Word=arrived Word=at NER=Location",我需要检查未指定的标签,因此不匹配的术语。
最佳答案
也许实现您所要求的一种方法是在同一位置(即 Word、POS、Chunk、NER)为每个注释类编制索引,并在每个注释前加上一个唯一的字符串。不要为单词的前缀而烦恼。您将需要一个自定义分析器来保留前缀,但是您应该能够使用您想要的语法进行查询。
具体来说,我的建议是在指定位置索引以下标记:
Position Word POS Chunk NER
======== ==== === ===== ========
1 The POS=DT CHUNK=NP NER=Person
2 man POS=NN CHUNK=NP NER=Person
3 went POS=VBD CHUNK=VP -
4 to POS=TO CHUNK=PP -
5 the POS=DT CHUNK=NP NER=Location
6 store POS=NN CHUNK=NP NER=Location
要获取语义,请使用 SpanQuery或 SpanTermQuery以保留 token 序列。
我还没有尝试过,但是在同一位置索引不同类别的术语应该允许位置敏感的查询做正确的事情来评估表达式,例如
NER=Person arrived at NER=Location
请注意与您的示例的不同之处:我删除了 Word= 前缀以将其视为默认值。此外,您选择的前缀语法(例如,“class=”)可能会限制您正在索引的文档的内容。确保文档不包含短语,或者在预处理中以某种方式转义它们。当然,这与您需要使用的分析器有关。
更新:我使用这种技术来索引文本中的句子和段落边界(使用 break=sen 和 break=para 标记)所以我可以决定在哪里中断短语查询匹配。似乎工作正常。
关于java - 在 Lucene 中对词级注释层进行索引和搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2883012/
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当
我真的很习惯使用Ruby编写以下代码:my_hash={}my_hash['test']=1Java中对应的数据结构是什么? 最佳答案 HashMapmap=newHashMap();map.put("test",1);我假设? 关于java-等价于Java中的RubyHash,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/22737685/
这是一道面试题,我没有答对,但还是很好奇怎么解。你有N个人的大家庭,分别是1,2,3,...,N岁。你想给你的大家庭拍张照片。所有的家庭成员都排成一排。“我是家里的friend,建议家庭成员安排如下:”1岁的家庭成员坐在这一排的最左边。每两个坐在一起的家庭成员的年龄相差不得超过2岁。输入:整数N,1≤N≤55。输出:摄影师可以拍摄的照片数量。示例->输入:4,输出:4符合条件的数组:[1,2,3,4][1,2,4,3][1,3,2,4][1,3,4,2]另一个例子:输入:5输出:6符合条件的数组:[1,2,3,4,5][1,2,3,5,4][1,2,4,3,5][1,2,4,5,3][
我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时,测试会在当前主机停止。即使测试失败,我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r
我们的git存储库中目前有一个Gemfile。但是,有一个gem我只在我的环境中本地使用(我的团队不使用它)。为了使用它,我必须将它添加到我们的Gemfile中,但每次我checkout到我们的master/dev主分支时,由于与跟踪的gemfile冲突,我必须删除它。我想要的是类似Gemfile.local的东西,它将继承从Gemfile导入的gems,但也允许在那里导入新的gems以供使用只有我的机器。此文件将在.gitignore中被忽略。这可能吗? 最佳答案 设置BUNDLE_GEMFILE环境变量:BUNDLE_GEMFI
我使用Nokogiri(Rubygem)css搜索寻找某些在我的html里面。看起来Nokogiri的css搜索不喜欢正则表达式。我想切换到Nokogiri的xpath搜索,因为这似乎支持搜索字符串中的正则表达式。如何在xpath搜索中实现下面提到的(伪)css搜索?require'rubygems'require'nokogiri'value=Nokogiri::HTML.parse(ABBlaCD3"HTML_END#my_blockisgivenmy_bl="1"#my_eqcorrespondstothisregexmy_eq="\/[0-9]+\/"#FIXMEThefoll
这似乎非常适得其反,因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误,一个名为UnixSocket的类显然在Windows机器上不能正常工作,等等)。我只是在浪费时间吗?我应该转向不同的脚本语言吗? 最佳答案 我在Windows上使用Ruby的经验很少,但是当我开始使用Ruby时,我是在Windows上,我的总体印象是它不是Windows原生系统。因此,在主要使用Windows多年之后,开始使用Ruby促使我切换回原来的系统Unix,这次是Linux。Rub
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java,并成功地将它与另一个Java包一起使用,但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www