LUCENE_草庐IT

优秀的Elasticsearch Java 客户端-Jest

一、简介任何使用过Elasticsearch的人都知道，使用他们的RESTfulserachAPI构建查询可能既乏味又容易出错。在本教程中，我们将了解Jest，它是Elasticsearch的HTTPJava客户端。Elasticsearch提供了自己的原生Java客户端，而Jest则提供了更流畅的API和更易于使用的界面。2.Maven依赖我们需要做的第一件事是将Jest库导入到我们的POM中：dependency>groupId>io.searchboxgroupId>artifactId>jestartifactId>version>6.3.1version>dependency>Jes

c# - 将查询部分与 Lucene 和数据库 (MySQL) 中的部分相结合

我有一个应用程序需要进行过滤并从文章列表中检索结果。对于数据库，我使用MySQL，使用NHibernate作为ORM。该查询还基于关键字进行全文搜索，为此它使用了Lucene.Net。我的问题是查询跨越“两个”域。例如，我可能需要获取包含关键字“交通控制”的所有文章，并且PublishedOn如果我先在MySQL上进行搜索，我不能只得到前50个，因为结果可能会在Lucene中进一步过滤，我需要50个作为我的页面大小。如果我从Lucene.Net开始，情况也是如此。此外，最好按“相关性”排序，所以这是Lucene可以做的事情，而不是MySQL。我目前的做法是先通过MySQL进行过滤，然后

php - 使用 Lucene/PHP 索引大型数据库

下午的伙计们，尝试使用Lucene的Zend端口为170万行的表编制索引。在几千行的小测试中，它工作得很好，但是一旦我尝试将行数增加到几万行，它就会超时。显然，我可以增加php允许脚本运行的时间，但看到360秒让我得到~10,000行，我不愿去想完成170万行需要多少秒。我也试过让脚本运行几千次，刷新，然后再运行几千次，但这样做每次都会清除索引。有什么想法吗？谢谢:) 最佳答案我很抱歉这么说，因为Zend_Search_Lucene的开发者是我的friend，他为此付出了很多努力，但不幸的是，它不适合在任何非平凡大小的数据集上创建

mysql - 在java中实现搜索过滤器

我们需要针对我的社交网站针对用户个人资料实现搜索过滤器(类似Net-log)，个人资料过滤器包括年龄范围、性别和兴趣我们有大约100万个配置文件在MySQL上运行，MySQL似乎不是实现此类过滤器的正确选择，因此我们也在寻找Cassandra，那么实现这种过滤器的最佳方式是什么，结果需要非常快例如年龄=18-24性别=男性兴趣=足球日期中的年龄、性别和兴趣是varchar已编辑:让我改一下问题，我怎样才能获得任何类型搜索的最快结果。它可以基于个人资料名称，或1M个人资料记录中的任何其他个人资料。谢谢最佳答案对基础SQL进行更改会

java - 使用 solr 索引和搜索 MySQL

(我已将'放入下面的XML中以使其显示)大家好，我想用solr索引我的MySQL数据库表。我已经安装了必要的java组件/适配器等。我的数据库称为“test_db”，其中的表称为“table_tb”。该表包含2列(字段)-字段1称为“ID”，是一个自动递增的主键整数-字段2称为“COLA”，是文本该表有两行(记录)ID=1和ID=2，每行都有一些文本对应于第二列。我已经设置了以下conf文件(它们位于正确的目录中):数据配置.xml solrconfig.xmldata-config.xml架构.xml ID[URL]:8983/solr/dataimport?command=full

java - 如何提高 Solr 性能？

我们如何使用Solr:我们在solr中存储7K文档，其中一个文档附加了3k属性。每个属性都在solr上建立索引，以启用对这些属性的搜索/排序。我们正在根据搜索/过滤条件从solr中获取数据，其中400多个属性附加到一个文档。因此，当我们尝试在solr中搜索具有1个属性(通过设置fl="projectId")的一些文本时，几乎不需要1秒就可以在solr控制台上显示结果，这很好。但是，如果我们尝试为相同的搜索条件获取100多个属性(这将返回字符串~100*3*没有匹配的文档(~50)，来自具有4K属性的7K文档)它需要~20秒。但是我们需要用匹配的文档获取400+属性，这需要很长时间~90

mysql - 高效过滤/搜索

我们有一个管理内容页面的托管应用程序。每个页面都可以有一些自定义字段和一些标准字段(时间戳、用户名、用户电子邮件等)。可能有数百个不同的站点使用该系统——处理过滤/搜索的有效方法是什么？想象一个您想要缩小范围的GridView。您可以过滤特定字段(用户ID、日期)，也可以输入全文搜索。例如，“所有页面由userid10开始”将是针对MySQL数据库的非常快速的查询。但是诸如“所有页面都由用户ID为10且匹配[某些搜索查询]的用户启动”之类的内容会对数据库产生不利影响，因此它适合像Lucene这样的搜索引擎。基本上我想知道其他大型网站是如何做这类事情的。他们是否100%地利用搜索引擎进行

mysql - 使用 ElasticSearch JDBC river 从表中获取更改

我正在为ElasticSearch配置JDBCriver，但找不到任何好的配置示例。我已阅读全部pages在elasticsearch-river-jdbcGitHub.我有一个SQL查询，我需要每隔X秒从所有表列中获取更改。我如何告诉JDBCriver某些行已更改并且应该重新编制索引？数据在ES服务器启动期间获取，正在进行轮询，但更改不会从DB获取到ES。我的配置:curl-XPUT'localhost:9200/_river/itemsi/_meta'-d'{"type":"jdbc","jdbc":{"driver":"com.mysql.jdbc.Driver","url":"

mysql - 在mysql中搜索大量不断更新的文本

我有一个mysql数据库，其中不断添加大量文本。(每小时10页文本)。文本以明文形式存储在文本字段中。每行都与一两页文本相关。我需要定期对该数据库进行全文搜索(在文本中搜索关键字并进行复杂查询)。我只需要搜索新添加的文本。但让添加的文本立即可搜索(一两分钟内)非常重要。据我所知，使用mysql的fulltext效率非常低。我知道lucene是一个选项，但我不确定它能以多快的速度索引新文本。那么我的选择是什么？有没有办法让mysql更有效率？Lucene是我最好的解决方案吗？有什么更合适的吗？谢谢最佳答案我已经为Sphinx和So

mysql - 具有全文搜索功能的海量数据库 - Sphinx、Lucene、Cassandra、MongoDB、CouchDB

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭12年前。Improvethisquestion我们公司正在进行一个项目，需要一个包含30-50百万行产品数据的数据库。这些行包含需要每秒同时搜索数千次的文本。此外，每次搜索的执行时间都需要不到一秒钟。所以，总而言之，我们有一个50M行的数据库，每秒需要搜索数千次。请记住，这些是全文搜索。我知道单独使用MySQL或任何关系数据库无法处理此类工作。因此，我们正在寻找能够以您指定的价格为我们设计合适的设置并帮助我们实现的人。首先，我们想知道这里