LUCENE

java - Lucene - 精确的字符串匹配

我正在尝试创建一个Lucene4.10索引。我只想在索引中保存我放入文档中的确切字符串，无需标记化。我正在使用StandardAnalyzer。Directorydir=FSDirectory.open(newFile("myDire"));Analyzeranalyzer=newStandardAnalyzer();IndexWriterConfigiwc=newIndexWriterConfig(Version.LUCENE_4_10_0,analyzer);iwc.setOpenMode(OpenMode.CREATE);IndexWriterwriter=newIndexWri

Lucene java code 34 StringField tokenize

java - Solr 5.1 : Solr is creating way too many log files

我正在处理Solr5.1创建过多日志文件的问题。每次重新启动Solr时，Solr会在一周内定期创建以下文件，我需要它停止:solr_gc_xxxxxxxx_xxxx类型的文件，其中x分别代表日期和某种标识号。这些包含垃圾收集信息。solr_log_xxxxxxxx_xxxx类型的文件，其中x分别代表日期和某种标识号。这些包含您在solr.log中找到的相同类型的信息。一个类型为solr-[port]-console.log的文件。它总是包含只有以下文本:警告:系统属性和/或JVM参数放。考虑使用--dry-run或--exec在一个星期内，我收集了将近30个类型1和类型2的文件!更糟糕

Solr creating code log java lucene

java - 在 Lucene 中获取术语频率

有没有一种快速简便的方法可以从Lucene索引中获取术语频率，而无需通过TermVectorFrequencies类来完成，因为这对于大型集合来说会花费大量时间？我的意思是，有没有像TermEnum这样的东西，它不仅有文档频率，还有词频？更新:使用TermDocs太慢了。最佳答案使用TermDocs获取给定文档的词频。与文档频率一样，您可以使用感兴趣的术语从IndexReader中获取术语文档。在不失一般性的情况下，您找不到比TermDocs更快的方法。TermDocs直接从索引段中的“.frq”文件读取，其中每个词频按文档顺序

Lucene java code section TermDocs full-text-search

java - 与 lucene 索引一起使用的最佳跨语言分析器

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。我正在寻找有关将哪种分析器用于具有多种语言文档的索引的反馈。目前我正在使用simpleanalyzer，因为它似乎可以处理最广泛的语言。大多数被索引的文件都是英文的，但偶尔也会有双字节语言被索引。是否还有其他建议，或者我应该坚持使用simpleanalyzer。谢谢

分析器 lucene section notice simpleanalyzer java

java - Lucene 似乎在缓存搜索结果——为什么？

在我的项目中，我们使用Lucene2.4.1进行全文搜索。这是一个J2EE项目，IndexSearcher创建一次。在后台，索引每两分钟刷新一次(当内容改变时)。用户可以通过页面上的搜索机制搜索索引。问题是，Lucene返回的结果似乎以某种方式被缓存了。这是我注意到的场景:我启动应用程序并搜索“关键字”-返回了6个结果，索引已刷新，使用Luke我看到，现在有8个结果可以查询“关键字”，我再次使用该应用程序进行搜索，再次返回6个结果。我分析了我们的配置，并没有在任何地方发现任何缓存。我调试了搜索，输出代码中没有缓存，searcher.search返回6个结果。Lucene是否以某种方式在

mdash Lucene section noreferrer noopener java

java - Elasticsearch - EdgeNgram + highlight + term_vector = 不好的亮点

当我使用带有edgengram(min=3,max=7,front)+term_vector=with_positions_offsets的分析器时文档有text="CouchDB"当我搜索“couc”时我的重点是“cou”而不是“couc”我的亮点似乎只在最小匹配标记“cou”上，而我希望在确切的标记上(如果可能的话)或至少是找到的最长标记。无需使用term_vector=with_positions_offsets分析文本即可正常工作删除term_vector=with_positions_offsets对性能有什么影响？最佳答案

Elasticsearch term_vector 荧光笔 vector section java search lucene n-gram

java - 如何在lucene中索引日期字段

我是lucene的新手。我必须索引日期字段。我在lucene3.0.0中使用以下IndexWriter构造函数。IndexWriterwriter=newIndexWriter(FSDirectory.open(indexDir),newWhitespaceAnalyzer(),true,IndexWriter.MaxFieldLength.UNLIMITED)我的观点是:为什么在不分析日期字段时需要分析器，而索引时我使用了Field.Index.NOT_ANALYZED。最佳答案您可以用这种方式存储日期字段..Document

何在 lucene code section java date

java - Mac 用户 - 如何在 Mac 中设置 CLASSPATHS(我正在处理 Lucene 演示)

我正在尝试让我的ApacheLucene演示正常工作，我打算在本教程中设置类路径http://lucene.apache.org/java/2_3_2/demo.html我搜索了网络，这些是我找到的设置CLASSPATH的2个解决方案:CLASSPATH=${CLASSPATH}:/Users/philhunter/Desktop/COM562\Project/lucene-3.0.3/lucene-core-3.0.3.jar和setenvCLASSPATH${CLASSPATH}:/Users/philhunter/Desktop/COM562\Project/lucene-3.0

中设何在 lucene CLASSPATH section java macos

java - 使用 Lucene 的缺点是什么？

我正在考虑在我的项目中使用Lucene来进行非常快速的搜索。我知道Lucene在保存所有数据/索引的地方创建了自己的文件。我想知道使用Lucene的缺点是什么？有吗？您是否必须对文件数据库做任何事情，或者它是否在没有任何外部帮助的情况下工作得很好？附言我知道还有Lucene.NET，我敢打赌同样的规则也适用于那里。最佳答案 Lucene很棒。非常灵活，速度惊人，而且是可靠的API。邮件列表非常有用。文件确实需要一些维护，但可以使用提供的工具来完成。最重要的是偶尔优化索引，但这只有在您定期更新索引时才需要。我建议您也研究一下Solr

缺点 Lucene section 的 java .net full-text-search lucene.net

java - Lucene 4 分页

我正在使用Lucene4.2并实现结果分页。IndexSearcher.searchAfter提供了一种实现“下一页”功能的有效方法，但是实现“上一页”甚至“转到页面”功能的最佳方法是什么？例如，没有IndexSearcher.searchBefore。我正在考虑根据页面大小确定页面总数，并保留一个ScoreDoc[]数组来跟踪每个页面的“之后”ScoreDoc(数组将在结果被分页时填充)。这将允许我在IndexSearcher.searchAfter中使用“最接近的”ScoreDoc(或者在最坏的情况下为null)。这有意义吗？有没有更好的方法？最佳答案

Lucene java code section IndexSearcher pagination

5 6 789 10 11