草庐IT

sunspot-solr

全部标签

lucene - 我从哪里开始学习 Lucene.NET Solr Hadoop 和 MapReduce?

我是一名.NET开发人员,我需要学习Lucene,这样我们才能运行非常大规模的搜索服务,删除最终用户无权访问的条目。(即用户可以搜索所有权限级别为3或更高的文件,但不能搜索权限级别为2或1的文件)我应该从哪里开始学习,应该考虑哪些产品?老实说,我有点不知所措,但我下定决心要弄清楚这一切……最终。 最佳答案 如果您想要一本涵盖所有Lucene基础知识的书,请考虑“LuceneinAction”。即使代码示例是Java,您也可以轻松地将它们移植到.NET。当然,Web上也有大量资源,例如SO和Lucene邮件列表,它们应该可以帮助您。对

java - org.apache.solr.common.SolrException : Bad Request Bad Request request: http://localhost:8080/solr/update? wt=javabin&version=2

请大家帮帮我我正在尝试使用NUTCH抓取网站,但它给我错误“java.io.IOException:Jobfailed!”我正在运行此命令“bin/nutchsolrindexhttp://:8080/solr/crawl/crawldb-linkdbcrawl/linkdbcrawl/segments/*”并且我正在使用NUTCH1.5.1和SOLR3.6.1以及jdkjava-7-openjdk-i386和ubuntu12.04。在hadoop.log存在于NUTCH/log文件夹中显示以下内容:2012-09-1312:56:10,524INFOsolr.SolrIndexer-

hadoop - 将 Solr HDFS 数据复制到另一个集群

我有一个solr云(v4.10)安装,它位于Cloudera(CDH5.4.2)HDFS之上,具有3个solr实例,每个实例托管每个核心的一个碎片。我正在寻找一种将solr数据从我们的生产集群增量复制到我们的开发集群的方法。有3个核心,但我只对复制其中一个感兴趣。我曾尝试使用Solr复制-备份和恢复,但它似乎没有将任何内容加载到开发集群中。http://host:8983/solr/core/replication?command=backup&location=/solr_transfer&name=core-namehttp://host:8983/solr/core/replic

solr - 如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?

我想做一个搜索引擎。我想在其中抓取一些网站并将它们的索引和信息存储在Hadoop中。然后使用Solr搜索将完成。但我面临着很多问题。如果通过谷歌搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。这些是我的一些问题:1)抓取将如何完成?有没有用NUTCH完成爬取的?如果是,那么Hadoop和NUTCH如何相互通信?2)Solr有什么用?如果NUTCH做爬取,把爬取的索引和信息存储到Hadoop中,那么Solr的作用是什么?3)我们可以使用Solr和Nutch来完成搜索吗?如果是,那么他们会将抓取的索引保存在哪里?4)Solr如何与Hadoop通信?5)如

lucene - 在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么?

我们在具有1TBEBS卷的AmazonWebServicesEC2实例上运行Solr来存储索引,以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是,我们的索引很快就会超过1TB,我真的不想处理strip化多个EBS卷来保存索引。此外,重新生成索引非常慢。我想将索引生成——可能还有托管——转移到Hadoop,最好转移到Amazon的ElasticMapReduce,尽管如果需要我可以设置单独的Hadoop服务器。我们使用RightScale,因此我们可以使用他们的ServerTemplates库。在Hadoop上开始使用Lucene/Solr的最佳起点是什么?

solr - 在 hadoop 上运行 solr 索引

我有大量数据需要索引,花了10多个小时才完成。有没有办法在hadoop上做到这一点?以前有人做过吗?非常感谢! 最佳答案 您还没有解释10小时在哪里?是否需要提取数据?还是只需要索引数据。如果你在提取上花费很长时间,那么你可以使用hadoop。Solr有一个称为批量插入的功能。因此,在您的map函数中,您可以积累1000条记录,并一次将索引提交给solr以获取大量记录。这将大大优化您的表现。你的数据有多大?您可以在map/reduce作业的reduce函数中收集大量记录。您必须在map中生成正确的键,以便大量记录进入单个reduce

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时,我都会在下面遇到异常。作为confdir,我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时,我看到有一个Paths.get方法,它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

hadoop - "Hadoop-Solr Lucidworks Project"检索输入名称路径

我正在使用这个项目:https://github.com/lucidworks/hadoop-solr有谁知道在哪个值中保存了正在处理的文档的名称(或路径)。我想将此值检索到SolrAdmin(将一个字段及其名称添加到我的架构中)。这可能吗?示例:我希望能够看到文档的名称,查询从中返回相同的结果。我正在使用此命令运行项目:hadoopjarsolr-hadoop-job-2.2.5.jarcom.lucidworks.hadoop.ingest.IngestJob-Dlww.commit.on.close=true-DcsvDelimiter=-clscom.lucidworks.ha

java - Nutch + Solr 仅在顶级页面上

我一直在尝试使用Nutch抓取我的urls文件中域的第一页,然后使用Solr使抓取数据中的关键字可搜索。到目前为止,除非将这两个页面链接在一起,否则我无法以这种方式进行任何工作。我意识到这可能是页面没有传入链接的问题,因此PageRank算法会丢弃页面内容。我尝试调整参数,使不在图表中的url的默认分数更高,但我仍然得到相同的结果。人们是否知道可以在没有传入链接的页面上建立索引?谢谢! 最佳答案 尝试使用nutchinject命令将“no-incomming-link”URL插入到nutch数据库中。我想如果您在solr索引中看不到

solr - 搜索存储在 Hadoop 中的文档 - 使用哪个工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...当您阅读其中一个时,您通常可以确定会提到其他每个工具。我不希望您向我解释每一种工具-当然不会。如果您能帮助我针对我的特定场景缩小此范围,那就太好了。到目前为止,我不确定上面的哪一个适合,而且看起来(一如既往)有不止一种方法可以完成要做的事情。场景是:500GB-~20TB的文档存储在Hadoop中。多种格式的文本文档:电子邮​​件、doc、pdf、odt。有关存储在SQL数据库中的那些文档的元数据(发件人、收件人、日期、