LUCENE_草庐IT

hadoop - 如何基于hadoop和lucene构建分布式搜索

我正准备用lucence和hadoop制作分发搜索模块，但对某些事情感到困惑:我们知道，hdfs是一个分布式文件系统，当我把一个文件放到hdfs上时，文件会被分成几个block存储在claster不同的slave机器上，但是如果我用lucene写hdfs上的索引，我想查看每台机器上的索引，如何实现？我已经阅读了一些hadoop/contrib/index和一些katta，但不理解“分片，看起来像索引的一部分”的概念，它存储在一台计算机的本地磁盘上还是集群中只有一个方向分布？感谢提前最佳答案 -关于您的问题1:您可以实现Lucene

lucene - 单词共现 - 在一组 n-gram 中找到一个术语的共现

我将如何着手编写一个类似Java的同现类，它需要一个充满n-gram的文件并计算给定输入术语的词同现。是否有任何库或包可以与Lucene(索引)或类似Hadoop中n-gram列表的map-reduce一起工作？谢谢。最佳答案好吧，假设你想在一个ngram文件中找到两个不同单词的共现......这是伪代码式的Java://Co-occurrencematrixHashmap>map=newHashMap();//ListofngramsArrayList>ngrams=.....//assumewe'veloadedthemin

单词 lucene section String ArrayList hadoop nlp weka

apache - 无法运行导入 org.apache.lucene.analysis.Analyzer 的 Java 程序

我无法运行导入org.apache.lucene.analysis.Analyzer的java程序；importjava.io.BufferedReader;importjava.io.BufferedWriter;importjava.io.FileReader;importjava.io.FileWriter;importjava.io.StringReader;importjava.util.HashMap;importjava.util.Map;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.

apache analysis import String maven hadoop lucene mahout

lucene - 我从哪里开始学习 Lucene.NET Solr Hadoop 和 MapReduce？

我是一名.NET开发人员，我需要学习Lucene，这样我们才能运行非常大规模的搜索服务，删除最终用户无权访问的条目。(即用户可以搜索所有权限级别为3或更高的文件，但不能搜索权限级别为2或1的文件)我应该从哪里开始学习，应该考虑哪些产品？老实说，我有点不知所措，但我下定决心要弄清楚这一切……最终。最佳答案如果您想要一本涵盖所有Lucene基础知识的书，请考虑“LuceneinAction”。即使代码示例是Java，您也可以轻松地将它们移植到.NET。当然，Web上也有大量资源，例如SO和Lucene邮件列表，它们应该可以帮助您。对

MapReduce lucene section noreferrer solr lucene.net hadoop

lucene - 使用 Lucene 索引作为 Hadoop 的输入

我正在尝试从语料库构建邻接表。我正在考虑使用Map-Reduce，因为内存解决方案已被证明非常昂贵。我认为可行的作业顺序要求我从倒排索引开始，然后有一个map作业作为输入，然后计算相似性。我不是特别想经历构建我自己的倒排索引的痛苦——我想使用一个看起来很容易生成的Lucene索引。但是，我不太清楚如何使用Lucene索引并生成Hadoop中的Map可以使用的对？有人可以阐明如何做到这一点吗？最佳答案你需要做的是使用IndexReader.terms()枚举词条，IndexReader.docFreq(Termt)获取包含该词条的

lucene section code 倒排 hadoop

lucene - 在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么？

我们在具有1TBEBS卷的AmazonWebServicesEC2实例上运行Solr来存储索引，以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是，我们的索引很快就会超过1TB，我真的不想处理strip化多个EBS卷来保存索引。此外，重新生成索引非常慢。我想将索引生成——可能还有托管——转移到Hadoop，最好转移到Amazon的ElasticMapReduce，尽管如果需要我可以设置单独的Hadoop服务器。我们使用RightScale，因此我们可以使用他们的ServerTemplates库。在Hadoop上开始使用Lucene/Solr的最佳起点是什么？

lucene Hadoop section ElasticSearch solr mapreduce elastic-map-reduce

mysql - 搜索引擎 Lucene 与数据库搜索

我正在使用MySQL数据库，并且一直在使用数据库驱动的搜索。数据库引擎和Lucene搜索引擎有什么优缺点？我想就何时何地使用它们提出建议？最佳答案我建议你阅读FullTextSearchEnginesvs.DBMS.单线是:如果您的大部分用例是全文搜索，请使用Lucene。如果您的大部分用例是连接和其他关系操作，请使用数据库。对于更复杂的用例，您可以使用混合解决方案。关于mysql-搜索引擎Lucene与数据库搜索，我们在StackOverflow上找到一个类似的问题：

Lucene mysql section 大部 search-engine

mysql - 搜索引擎 Lucene 与数据库搜索

我正在使用MySQL数据库，并且一直在使用数据库驱动的搜索。数据库引擎和Lucene搜索引擎有什么优缺点？我想就何时何地使用它们提出建议？最佳答案我建议你阅读FullTextSearchEnginesvs.DBMS.单线是:如果您的大部分用例是全文搜索，请使用Lucene。如果您的大部分用例是连接和其他关系操作，请使用数据库。对于更复杂的用例，您可以使用混合解决方案。关于mysql-搜索引擎Lucene与数据库搜索，我们在StackOverflow上找到一个类似的问题：

Lucene mysql section 大部 search-engine

lucene - 是否可以在一个 JVM 中运行多个 map 任务？

我想在Hadoop中为我的maptask共享大量内存静态数据(RAMlucene索引)？有没有办法让多个map/reduce任务共享同一个JVM？最佳答案作业可以通过指定作业配置mapred.job.reuse.jvm.num.tasks来重用任务JVM。如果该值为1(默认值)，则不会重用JVM(即每个JVM1个任务)。如果它是-1，则JVM可以运行的(同一作业的)任务数没有限制。还可以使用API指定大于1的值。关于lucene-是否可以在一个JVM中运行多个map任务？，我们在S

中运 lucene section JVM hadoop hadoop-plugins

php - Lucene 中的多术语通配符查询？

我正在使用Zend_Search_Lucene，它是JavaLucene的PHP端口。我目前有一些代码可以基于字符串数组构建搜索查询，查找至少有一个索引字段与提交的每个字符串相匹配的结果。简化后，它看起来像这样:(注意:$words是一个根据用户输入构造的数组。)$query=newZend_Search_Lucene_Search_Query_Boolean();foreach($wordsas$word){$term1=newZend_Search_Lucene_Index_Term($word,$fieldname1);$term2=newZend_Search_Lucene_I

Lucene php strong Search zend-framework full-text-search