草庐IT

solr - 如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?

我想做一个搜索引擎。我想在其中抓取一些网站并将它们的索引和信息存储在Hadoop中。然后使用Solr搜索将完成。但我面临着很多问题。如果通过谷歌搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。这些是我的一些问题:1)抓取将如何完成?有没有用NUTCH完成爬取的?如果是,那么Hadoop和NUTCH如何相互通信?2)Solr有什么用?如果NUTCH做爬取,把爬取的索引和信息存储到Hadoop中,那么Solr的作用是什么?3)我们可以使用Solr和Nutch来完成搜索吗?如果是,那么他们会将抓取的索引保存在哪里?4)Solr如何与Hadoop通信?5)如

lucene - 在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么?

我们在具有1TBEBS卷的AmazonWebServicesEC2实例上运行Solr来存储索引,以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是,我们的索引很快就会超过1TB,我真的不想处理strip化多个EBS卷来保存索引。此外,重新生成索引非常慢。我想将索引生成——可能还有托管——转移到Hadoop,最好转移到Amazon的ElasticMapReduce,尽管如果需要我可以设置单独的Hadoop服务器。我们使用RightScale,因此我们可以使用他们的ServerTemplates库。在Hadoop上开始使用Lucene/Solr的最佳起点是什么?

solr - 在 hadoop 上运行 solr 索引

我有大量数据需要索引,花了10多个小时才完成。有没有办法在hadoop上做到这一点?以前有人做过吗?非常感谢! 最佳答案 您还没有解释10小时在哪里?是否需要提取数据?还是只需要索引数据。如果你在提取上花费很长时间,那么你可以使用hadoop。Solr有一个称为批量插入的功能。因此,在您的map函数中,您可以积累1000条记录,并一次将索引提交给solr以获取大量记录。这将大大优化您的表现。你的数据有多大?您可以在map/reduce作业的reduce函数中收集大量记录。您必须在map中生成正确的键,以便大量记录进入单个reduce

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时,我都会在下面遇到异常。作为confdir,我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时,我看到有一个Paths.get方法,它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

hadoop - "Hadoop-Solr Lucidworks Project"检索输入名称路径

我正在使用这个项目:https://github.com/lucidworks/hadoop-solr有谁知道在哪个值中保存了正在处理的文档的名称(或路径)。我想将此值检索到SolrAdmin(将一个字段及其名称添加到我的架构中)。这可能吗?示例:我希望能够看到文档的名称,查询从中返回相同的结果。我正在使用此命令运行项目:hadoopjarsolr-hadoop-job-2.2.5.jarcom.lucidworks.hadoop.ingest.IngestJob-Dlww.commit.on.close=true-DcsvDelimiter=-clscom.lucidworks.ha

java - Nutch + Solr 仅在顶级页面上

我一直在尝试使用Nutch抓取我的urls文件中域的第一页,然后使用Solr使抓取数据中的关键字可搜索。到目前为止,除非将这两个页面链接在一起,否则我无法以这种方式进行任何工作。我意识到这可能是页面没有传入链接的问题,因此PageRank算法会丢弃页面内容。我尝试调整参数,使不在图表中的url的默认分数更高,但我仍然得到相同的结果。人们是否知道可以在没有传入链接的页面上建立索引?谢谢! 最佳答案 尝试使用nutchinject命令将“no-incomming-link”URL插入到nutch数据库中。我想如果您在solr索引中看不到

solr - 搜索存储在 Hadoop 中的文档 - 使用哪个工具?

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...当您阅读其中一个时,您通常可以确定会提到其他每个工具。我不希望您向我解释每一种工具-当然不会。如果您能帮助我针对我的特定场景缩小此范围,那就太好了。到目前为止,我不确定上面的哪一个适合,而且看起来(一如既往)有不止一种方法可以完成要做的事情。场景是:500GB-~20TB的文档存储在Hadoop中。多种格式的文本文档:电子邮​​件、doc、pdf、odt。有关存储在SQL数据库中的那些文档的元数据(发件人、收件人、日期、

hadoop - Cassandra + Solr/Hadoop/Spark - 选择合适的工具

我目前正在研究如何存储和分析每行最多1000列的基于时间的丰富数据。目前,DatastaxEnterprise提供的Cassandra和Solr、Hadoop或Spark似乎基本可以满足我的要求。但细节决定成败。在1000列中,大约60列用于类似实时的查询(网络前端、用户发送表单并期望快速响应)。这些查询或多或少是GROUPBY语句,其中计算了次数或出现次数。由于Cassandra本身不提供所需的分析功能(没有GROUPBY),我只剩下这些替代方案:通过Cassandra粗略查询并在自写代码中过滤结果集使用Solr索引数据并运行facet.pivot查询使用Hadoop或Spark并运

php - 在 PHP 中处理 Solr 结果的理想方式?

首先,我知道一些与此类似的问题,但我认为这种情况的不同足以引起它自己的问题。我正在通过LAMP服务器上的码头安装运行Solr索引。我目前使用simplexml_load_file函数来引入搜索结果,然后通过几个函数解析它们。在我开始遇到一个基本问题之前,我对这个过程很满意。字段名称不会通过simplexml函数传递。比如这个结果;0.73325396RavensbridgeDrive0StratstoneLotusLeicester1711765LE40BXLE40在simplexml对象中看起来像这样;[doc]=>Array([0]=>SimpleXMLElementObject(

php - Apache SOLR HttpTransportException

偶尔,我会收到来自客户服务器的异常邮件,告诉我SOLR出了点问题:Uncaughtexception'Apache_Solr_HttpTransportException'withmessage''0'Status:CommunicationError'inC:\xxxxxxxxx\php\Apache\Solr\Service.php:338或Uncaughtexception'Apache_Solr_HttpTransportException'withmessage''404'Status:NotFound'inC:\xxxxxxxxx\php\Apache\Solr\Servi