lucene

ruby - Elasticsearch:SearchPhaseExecutionException/解析失败

我在elasticsearch上运行了以下查询curl-XGET"http://localhost:9200/games_201403031340/_search?pretty=true"-d'{"query":{"field":{"title":"ca"}}}'结果我得到了这个错误"error":"SearchPhaseExecutionException[Failedtoexecutephase[query],allshardsfailed;shardFailures{[znmo0cd5Q3S2_ymuDANqKw][games_201403031340][1]:SearchPar

javascript - elasticsearch 分析器 - 小写和空格分词器

我如何创建一个映射来标记空格上的字符串并将其更改为小写以进行索引？这是我当前通过空格标记化的映射，我无法理解如何将其小写并搜索(查询)相同...{"mappings":{"my_type":{"properties":{"title":{"type":"string","analyzer":"whitespace","tokenizer":"whitespace","search_analyzer":"whitespace"}}}}}请帮忙... 最佳答案我设法编写了一个自定义分析器，这很有效..."settings":{"ana

分析器 elasticsearch 34 section whitespace javascript lucene

java - 使用 scala 处理某些 xml 时出现内存不足错误

我已经将wikixml转储分成许多1M的小部分并尝试清理它(在其他人用另一个程序清理它之后)我遇到了一个内存不足的错误，我不知道如何解决。谁能赐教一下？我收到以下错误消息:Exceptioninthread"main"java.lang.OutOfMemoryError:Javaheapspaceatorg.apache.lucene.index.FreqProxTermsWriterPerField$FreqProxPostingsArray.(FreqProxTermsWriterPerField.java:212)atorg.apache.lucene.index.FreqPro

时出 scala TraversableLike collection java xml lucene

xml - 使用搜索引擎作为键值存储有哪些优点和缺点？

给定像Lucene这样的搜索引擎和一组需要完整保存的XML文档，在给定每个文档包含唯一主键的情况下，使用搜索引擎作为返回XML文档的键值存储的优点和缺点是什么？最佳答案阅读SearchEngineversusDBMS.IMO，您的应用程序属于DBMS领域，并且可能最好由键值数据库提供服务，例如couchDB。这是因为您没有利用文本操作，例如标记化、词干提取等。关于xml-使用搜索引擎作为键值存储有哪些优点和缺点？，我们在StackOverflow上找到一个类似的问题：

优点缺点 section 给定 stackoverflow xml lucene key-value-store

ES写数据延迟问题

ES写数据延迟问题问题背景在index后有一个refresh_interval默认1秒，在这个时间间隔内search是不可见的。解决elasticsearch更新数据后不能立即刷新的问题_啦啦不要熬夜啊的博客-CSDN博客_es更新后立马刷新写数据----->ES内存buffer（缓存区）-------定期refresh成segment------>os系统文件缓冲区（在这里的数据对搜索可见）---->磁盘refresh：Elasticsearch刚索引的文档并不是立即对搜索可见，它们会先在内存buffer（缓存区）中，buffer数据满后或主动刷新操作才会进行refresh写入到文件缓存

写数据 xff0c xff xff0 elasticsearch lucene

java - 获取 xml 元素的字节/字符偏移量

我想知道java中的哪个XML解析器(如果有的话)可以为我提供它解析的xml元素的字节偏移量。我正在使用Lucene来索引我的XML文件，当我搜索一个特定的词时，我需要输出包含XML元素、文件名以及字节偏移量，以便我可以快速查找到该偏移量。最佳答案查看VTD-XML:http://vtd-xml.sourceforge.net,VTDNav.getContentFragment()对元素的偏移量和长度进行编码:javadoc.您可以通过将其转换为int(int)VTDNav.getContentFragment()来获取偏移量。

偏移 java section getContentFragment xml xml-parsing lucene

xml - 错误 404 : Prob accessing/solr/update. 原因:未找到

我关注了solrtutorial并将默认collection1重命名为core1，但是当我尝试使用以下命令将XML导入solr时出现错误404:curlhttp://127.0.0.1:8983/solr/update--data-binary@monitor.xml-H'Content-type:application/xml'这是响应:HTTPERROR404Problemaccessing/solr/update.Reason:NotFoundPoweredbyJetty:// 最佳答案如果您将集合重命名为core1，您应该

accessing update section solr code xml lucene

xml - 数千个文档(pdf 和/或 xml)的可搜索存档的最佳实践

重新审视一个停滞不前的项目，并寻求对数千个“旧”文档进行现代化改造并通过网络提供它们的建议。文档以各种格式存在，有些已经过时:(.doc,PageMaker,硬拷贝(OCR),PDF)。资金可用于将文档迁移到“现代”格式，并且许多硬拷贝已经被OCR转换为PDF-我们最初假设PDF将是最终格式，但我们愿意接受建议(XML？).一旦所有文档都采用通用格式，我们希望提供它们的内容和可通过网络界面搜索.我们希望能够灵活地仅返回整个文档中找到搜索“命中”的部分(页面？)(我相信Lucene/elasticsearch使这成为可能？!？)如果内容都是XML会更灵活吗？如果是这样，如何/在哪里存储X

数千 xml 34 br li pdf lucene full-text-search elasticsearch

【elasticsearch】elasticsearch es读写原理

一、前言：今天来学习下es的写入原理。Elasticsearch底层使用Lucene来实现doc的读写操作：Luence存在的问题：没有并发设计lucene只是一个搜索引擎库，并没有涉及到分布式相关的设计，因此要想使用Lucene来处理海量数据，并利用分布式的能力，就必须在其之上进行分布式的相关设计。非实时将文件写入lucence后并不能立即被检索，需要等待lucene生成一个完整的segment才能被检索数据存储不可靠写入lucene的数据不会立即被持久化到磁盘，如果服务器宕机，那存储在内存中的数据将会丢失不支持部分更新lucene中提供仅支持对文档的全量更新，对部分更新不支持。例如：对文档

elasticsearch 读写 code xff0c xff 搜索引擎 lucene

java - 找不到 ElasticSearch Lucene UnicodeUtil

我正在尝试通过Java使用ElasticSearchimportjava.util.Date;importjava.util.HashMap;importjava.util.Map;importorg.elasticsearch.action.index.IndexResponse;importorg.elasticsearch.client.Client;importorg.elasticsearch.client.transport.TransportClient;importorg.elasticsearch.common.transport.InetSocketTranspor

ElasticSearch UnicodeUtil java common windows lucene

12 3 4