LUCENE

java - Lucene-Appengine 的 SegmentIndexInput readByte 方法中的 NullPointerException

我在运行Lucene时得到以下错误跟踪。我包括提示错误的代码段。具体项目/连接器是LuceneforAppengine代码publicstaticvoidresetAllIndicesUsingDatastore(){LOG.info("InsideresetAllIndicesUsingDatastore");StandardAnalyzeranalyzer=newStandardAnalyzer();GaeDirectorydirectory=newGaeDirectory(LuceneWorker.DOGS);//createdogindexIndexWriterConfigco

java - lucene - 越接近标题开头的术语越重要

我了解如何在索引时或查询时提升字段。但是，如何才能提高匹配更接近标题开头的术语的分数？例子:Query="lucene"Doc1title="Lucene:Homepage"Doc2title="Ihaveaquestionaboutlucene?"我希望第一个文档得分更高，因为“lucene”更接近开头(暂时忽略术语freq)。我知道如何使用SpanQuery来指定术语之间的接近度，但我不确定如何使用有关字段中位置的信息。我在Java中使用Lucene4.1。最佳答案我会使用SpanFirstQuery,它匹配字段开头附近的术

越重 lucene code SpanFirstQuery java

java - 在拉丁文字中匹配两个包含少于 10 个单词的字符串的最佳算法是什么

我正在比较歌曲标题，使用拉丁文字(虽然不总是)，我的目标是如果两首歌的标题看起来相同则给出高分的算法，如果它们什么都没有则给出非常低的分数共同点。现在我已经不得不编写代码(Java)以使用Lucene和RAMDirectory编写此代码-但是仅使用Lucene来比较两个字符串太重量级，因此太慢。我现在开始使用https://github.com/nickmancol/simmetrics它有许多用于比较两个字符串的不错的算法:https://github.com/nickmancol/simmetrics/tree/master/src/main/java/uk/ac/shef/wit

拉丁文少于 section 的 java lucene string-matching similarity

java - 使用 Solr 索引多种语言

我们正在设置一个Solr来索引标题字段可以使用多种语言的文档。谷歌搜索后，我发现了两个选项:定义不同的架构字段每种语言，即title_en，title_fr,...应用不同过滤到每种语言然后查询标题字段之一相应的语言。创作不同的Solr核心来处理每个语言并进行我们的应用查询正确的Solr核心。哪个更好？什么是起起落落？谢谢最佳答案还有第三种选择，您对所有语言使用一组通用字段，但对字段language应用过滤器。例如，如果您有字段text、language，您可以将所有语言的文本内容放入text字段并使用例如fq=language

多种 java code section language lucene solr

java - 如何优化solr索引

如何优化solr索引。我想优化我的solr索引，因为我尝试在solrconfig.xml中更改它被索引，但我想知道如何验证它们是否已优化以及索引优化涉及哪些内容。最佳答案开始前检查各自核心的大小。打开终端1:watch-n10"du-sh/pathtocore/data/*"打开终端2并执行:curlhttp://hostname:8980/solr//update?optimize=true更新您各自的核心名称，而不是“核心”。您可以看到核心的大小会逐渐增加，大约是索引数据大小的两倍，然后会突然减少。这将需要时间，具体取决于您

java solr section code optimization jakarta-ee lucene

java - 使用 lucene 改进多线程索引

我正在尝试使用多线程在Lucene中构建索引。因此，我开始编码并编写了以下代码。首先，我找到文件并为每个文件创建一个线程来为其编制索引。之后我加入线程并优化索引。它有效，但我不确定......我可以大规模信任它吗？有什么办法可以改善吗？importjava.io.File;importjava.io.FileFilter;importjava.io.FileReader;importjava.io.IOException;importjava.io.File;importjava.io.FileReader;importjava.io.BufferedReader;importorg.

多线改进 import lucene apache java multithreading indexing

java - Lucene从2.2升级到2.9到3.1的问题

我有一个使用Lucene2.2.x的现有软件，我需要升级到3.1。要进行此升级，我阅读了建议先升级到2.9.x的文档，删除所有弃用警告，然后再升级到3.1.x。我部署了现有索引，我需要保持代码与之兼容。我的主要问题是处理日期。在2.2.x中，我必须使用DateTools.dateToString()将Date.getTime()转换为可以索引和存储的字符串。我在每个文档上创建了两个字段。一个用于搜索，以小时分辨率存储，另一个字段未分析。现在Lucene2.9.x支持不同于字符串的其他数据类型。如果针对使用DateTools将日期转换为字符串的先前版本，这些新类型是否可以在RangeQu

Lucene java code section DateTools

java - 如何在 Hibernate Search/Lucene 中禁用默认评分/提升？

我想为我的用户提供最相关和最好的结果。例如，我奖励具有大标题、描述、附加照片等的记录。对于上下文:记录是自行车路线，具有路线点(坐标)和照片、评论等元数据。现在，我使用Hibernate为这些记录编制了索引，然后在HibernateSearch中使用Lucene在索引中进行搜索。为了对我的结果进行评分，我根据文档属性构建查询并在shouldBooleanJunction子句中提升它们(使用boostedTo()):bj.should(qb.range().onField("descriptionLength").above(3000).createQuery()).boostedTo(

何在 Hibernate 34 code int java indexing lucene hibernate-search

Java JDK BitSet 与 Lucene OpenBitSet

我试图实现一个BloomFilter并且遇到了一些关于BitSets的讨论。LuceneOpenBitSet声称它在几乎所有操作中都比JavaBitSet实现更快。http://grepcode.com/file/repo1.maven.org/maven2/org.apache.lucene/lucene-core/4.10.4/org/apache/lucene/util/OpenBitSet.java#OpenBitSet我试图查看两种实现的代码。Java位集代码http://grepcode.com/file/repository.grepcode.com/java/root/

OpenBitSet BitSet BitSetBenchmark code thrpt java performance lucene

java - lucene java中的精确召回

我想用Lucene来计算Precision和Recall。我做了这些步骤:制作了一些索引文件。为此，我使用了索引器代码和索引.txt文件，这些文件存在于此路径C:/inn中(此文件夹中有4个文本文件)并将它们放入“outt”文件夹，方法是在索引器代码中将索引路径设置为C:/outt。创建了一个名为lia.benchmark的包和其中一个名为“PrecisionRecall”的类，并添加externaljars(右键单击-->Java构建路径-->添加外部jar)并添加Lucene-benchmark-.3.2.0jar和Lucene-core-3.3.0jar将代码中的topicsfi

java lucene code benchmark 0.000 search-engine

18 19 202122 23 24