sunspot-solr_草庐IT

lucene - 我从哪里开始学习 Lucene.NET Solr Hadoop 和 MapReduce？

我是一名.NET开发人员，我需要学习Lucene，这样我们才能运行非常大规模的搜索服务，删除最终用户无权访问的条目。(即用户可以搜索所有权限级别为3或更高的文件，但不能搜索权限级别为2或1的文件)我应该从哪里开始学习，应该考虑哪些产品？老实说，我有点不知所措，但我下定决心要弄清楚这一切……最终。最佳答案如果您想要一本涵盖所有Lucene基础知识的书，请考虑“LuceneinAction”。即使代码示例是Java，您也可以轻松地将它们移植到.NET。当然，Web上也有大量资源，例如SO和Lucene邮件列表，它们应该可以帮助您。对

java - org.apache.solr.common.SolrException : Bad Request Bad Request request: http://localhost:8080/solr/update? wt=javabin&version=2

请大家帮帮我我正在尝试使用NUTCH抓取网站，但它给我错误“java.io.IOException:Jobfailed!”我正在运行此命令“bin/nutchsolrindexhttp://:8080/solr/crawl/crawldb-linkdbcrawl/linkdbcrawl/segments/*”并且我正在使用NUTCH1.5.1和SOLR3.6.1以及jdkjava-7-openjdk-i386和ubuntu12.04。在hadoop.log存在于NUTCH/log文件夹中显示以下内容:2012-09-1312:56:10,524INFOsolr.SolrIndexer-

hadoop - 将 Solr HDFS 数据复制到另一个集群

我有一个solr云(v4.10)安装，它位于Cloudera(CDH5.4.2)HDFS之上，具有3个solr实例，每个实例托管每个核心的一个碎片。我正在寻找一种将solr数据从我们的生产集群增量复制到我们的开发集群的方法。有3个核心，但我只对复制其中一个感兴趣。我曾尝试使用Solr复制-备份和恢复，但它似乎没有将任何内容加载到开发集群中。http://host:8983/solr/core/replication?command=backup&location=/solr_transfer&name=core-namehttp://host:8983/solr/core/replic

solr - 如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

我想做一个搜索引擎。我想在其中抓取一些网站并将它们的索引和信息存储在Hadoop中。然后使用Solr搜索将完成。但我面临着很多问题。如果通过谷歌搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。这些是我的一些问题:1)抓取将如何完成？有没有用NUTCH完成爬取的？如果是，那么Hadoop和NUTCH如何相互通信？2)Solr有什么用？如果NUTCH做爬取，把爬取的索引和信息存储到Hadoop中，那么Solr的作用是什么？3)我们可以使用Solr和Nutch来完成搜索吗？如果是，那么他们会将抓取的索引保存在哪里？4)Solr如何与Hadoop通信？5)如

lucene - 在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么？

我们在具有1TBEBS卷的AmazonWebServicesEC2实例上运行Solr来存储索引，以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是，我们的索引很快就会超过1TB，我真的不想处理strip化多个EBS卷来保存索引。此外，重新生成索引非常慢。我想将索引生成——可能还有托管——转移到Hadoop，最好转移到Amazon的ElasticMapReduce，尽管如果需要我可以设置单独的Hadoop服务器。我们使用RightScale，因此我们可以使用他们的ServerTemplates库。在Hadoop上开始使用Lucene/Solr的最佳起点是什么？

solr - 在 hadoop 上运行 solr 索引

我有大量数据需要索引，花了10多个小时才完成。有没有办法在hadoop上做到这一点？以前有人做过吗？非常感谢! 最佳答案您还没有解释10小时在哪里？是否需要提取数据？还是只需要索引数据。如果你在提取上花费很长时间，那么你可以使用hadoop。Solr有一个称为批量插入的功能。因此，在您的map函数中，您可以积累1000条记录，并一次将索引提交给solr以获取大量记录。这将大大优化您的表现。你的数据有多大？您可以在map/reduce作业的reduce函数中收集大量记录。您必须在map中生成正确的键，以便大量记录进入单个reduce

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时，我都会在下面遇到异常。作为confdir，我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时，我看到有一个Paths.get方法，它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

hadoop - "Hadoop-Solr Lucidworks Project"检索输入名称路径

我正在使用这个项目:https://github.com/lucidworks/hadoop-solr有谁知道在哪个值中保存了正在处理的文档的名称(或路径)。我想将此值检索到SolrAdmin(将一个字段及其名称添加到我的架构中)。这可能吗？示例:我希望能够看到文档的名称，查询从中返回相同的结果。我正在使用此命令运行项目:hadoopjarsolr-hadoop-job-2.2.5.jarcom.lucidworks.hadoop.ingest.IngestJob-Dlww.commit.on.close=true-DcsvDelimiter=-clscom.lucidworks.ha

java - Nutch + Solr 仅在顶级页面上

我一直在尝试使用Nutch抓取我的urls文件中域的第一页，然后使用Solr使抓取数据中的关键字可搜索。到目前为止，除非将这两个页面链接在一起，否则我无法以这种方式进行任何工作。我意识到这可能是页面没有传入链接的问题，因此PageRank算法会丢弃页面内容。我尝试调整参数，使不在图表中的url的默认分数更高，但我仍然得到相同的结果。人们是否知道可以在没有传入链接的页面上建立索引？谢谢! 最佳答案尝试使用nutchinject命令将“no-incomming-link”URL插入到nutch数据库中。我想如果您在solr索引中看不到

solr - 搜索存储在 Hadoop 中的文档 - 使用哪个工具？

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...当您阅读其中一个时，您通常可以确定会提到其他每个工具。我不希望您向我解释每一种工具-当然不会。如果您能帮助我针对我的特定场景缩小此范围，那就太好了。到目前为止，我不确定上面的哪一个适合，而且看起来(一如既往)有不止一种方法可以完成要做的事情。场景是:500GB-~20TB的文档存储在Hadoop中。多种格式的文本文档:电子邮件、doc、pdf、odt。有关存储在SQL数据库中的那些文档的元数据(发件人、收件人、日期、