solr4

solr - 如果我们要用Hadoop和Solr做一个搜索引擎，NUTCH的作用是什么？

我想做一个搜索引擎。我想在其中抓取一些网站并将它们的索引和信息存储在Hadoop中。然后使用Solr搜索将完成。但我面临着很多问题。如果通过谷歌搜索，那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。这些是我的一些问题:1)抓取将如何完成？有没有用NUTCH完成爬取的？如果是，那么Hadoop和NUTCH如何相互通信？2)Solr有什么用？如果NUTCH做爬取，把爬取的索引和信息存储到Hadoop中，那么Solr的作用是什么？3)我们可以使用Solr和Nutch来完成搜索吗？如果是，那么他们会将抓取的索引保存在哪里？4)Solr如何与Hadoop通信？5)如

lucene - 在 Hadoop 上运行 Lucene/Solr 的最佳方式是什么？

我们在具有1TBEBS卷的AmazonWebServicesEC2实例上运行Solr来存储索引，以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是，我们的索引很快就会超过1TB，我真的不想处理strip化多个EBS卷来保存索引。此外，重新生成索引非常慢。我想将索引生成——可能还有托管——转移到Hadoop，最好转移到Amazon的ElasticMapReduce，尽管如果需要我可以设置单独的Hadoop服务器。我们使用RightScale，因此我们可以使用他们的ServerTemplates库。在Hadoop上开始使用Lucene/Solr的最佳起点是什么？

lucene Hadoop section ElasticSearch solr mapreduce elastic-map-reduce

solr - 在 hadoop 上运行 solr 索引

我有大量数据需要索引，花了10多个小时才完成。有没有办法在hadoop上做到这一点？以前有人做过吗？非常感谢! 最佳答案您还没有解释10小时在哪里？是否需要提取数据？还是只需要索引数据。如果你在提取上花费很长时间，那么你可以使用hadoop。Solr有一个称为批量插入的功能。因此，在您的map函数中，您可以积累1000条记录，并一次将索引提交给solr以获取大量记录。这将大大优化您的表现。你的数据有多大？您可以在map/reduce作业的reduce函数中收集大量记录。您必须在map中生成正确的键，以便大量记录进入单个reduce

solr hadoop section reduce

hadoop - 使用 zkcli.sh bash 通过 oozie shell 操作将 solr 配置从 hdfs 发送到 zookeeper

每次我尝试将solr配置发送给zookeeper时，我都会在下面遇到异常。作为confdir，我输入了这个地址:“hdfs://some_address/user/Peter/dir_with_date”。在bash脚本后面的jars中实现时，我看到有一个Paths.get方法，它将我的带有配置的字符串转换为没有双斜杠的字符串(“hdfs:/some_ad...”)。Exceptioninthread"main"java.io.IOException:Pathhdfs:/some_address/user/Peter/dir_with_datedoesnotexistatorg.apa

zookeeper 送到 code ZkConfigManager apache hadoop solr hdfs apache-zookeeper oozie

hadoop - "Hadoop-Solr Lucidworks Project"检索输入名称路径

我正在使用这个项目:https://github.com/lucidworks/hadoop-solr有谁知道在哪个值中保存了正在处理的文档的名称(或路径)。我想将此值检索到SolrAdmin(将一个字段及其名称添加到我的架构中)。这可能吗？示例:我希望能够看到文档的名称，查询从中返回相同的结果。我正在使用此命令运行项目:hadoopjarsolr-hadoop-job-2.2.5.jarcom.lucidworks.hadoop.ingest.IngestJob-Dlww.commit.on.close=true-DcsvDelimiter=-clscom.lucidworks.ha

Hadoop-Solr Lucidworks hadoop section solr

java - Nutch + Solr 仅在顶级页面上

我一直在尝试使用Nutch抓取我的urls文件中域的第一页，然后使用Solr使抓取数据中的关键字可搜索。到目前为止，除非将这两个页面链接在一起，否则我无法以这种方式进行任何工作。我意识到这可能是页面没有传入链接的问题，因此PageRank算法会丢弃页面内容。我尝试调整参数，使不在图表中的url的默认分数更高，但我仍然得到相同的结果。人们是否知道可以在没有传入链接的页面上建立索引？谢谢! 最佳答案尝试使用nutchinject命令将“no-incomming-link”URL插入到nutch数据库中。我想如果您在solr索引中看不到

Nutch java section 传入 hadoop solr

solr - 搜索存储在 Hadoop 中的文档 - 使用哪个工具？

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...当您阅读其中一个时，您通常可以确定会提到其他每个工具。我不希望您向我解释每一种工具-当然不会。如果您能帮助我针对我的特定场景缩小此范围，那就太好了。到目前为止，我不确定上面的哪一个适合，而且看起来(一如既往)有不止一种方法可以完成要做的事情。场景是:500GB-~20TB的文档存储在Hadoop中。多种格式的文本文档:电子邮件、doc、pdf、odt。有关存储在SQL数据库中的那些文档的元数据(发件人、收件人、日期、

Hadoop solr section 的发件人 lucene cloudera carrot2

hadoop - Cassandra + Solr/Hadoop/Spark - 选择合适的工具

我目前正在研究如何存储和分析每行最多1000列的基于时间的丰富数据。目前，DatastaxEnterprise提供的Cassandra和Solr、Hadoop或Spark似乎基本可以满足我的要求。但细节决定成败。在1000列中，大约60列用于类似实时的查询(网络前端、用户发送表单并期望快速响应)。这些查询或多或少是GROUPBY语句，其中计算了次数或出现次数。由于Cassandra本身不提供所需的分析功能(没有GROUPBY)，我只剩下这些替代方案:通过Cassandra粗略查询并在自写代码中过滤结果集使用Solr索引数据并运行facet.pivot查询使用Hadoop或Spark并运

Cassandra hadoop section Spark solr analytics apache-spark

php - 在 PHP 中处理 Solr 结果的理想方式？

首先，我知道一些与此类似的问题，但我认为这种情况的不同足以引起它自己的问题。我正在通过LAMP服务器上的码头安装运行Solr索引。我目前使用simplexml_load_file函数来引入搜索结果，然后通过几个函数解析它们。在我开始遇到一个基本问题之前，我对这个过程很满意。字段名称不会通过simplexml函数传递。比如这个结果；0.73325396RavensbridgeDrive0StratstoneLotusLeicester1711765LE40BXLE40在simplexml对象中看起来像这样；[doc]=>Array([0]=>SimpleXMLElementObject(

Solr php 39 gt public simplexml

php - Apache SOLR HttpTransportException

偶尔，我会收到来自客户服务器的异常邮件，告诉我SOLR出了点问题:Uncaughtexception'Apache_Solr_HttpTransportException'withmessage''0'Status:CommunicationError'inC:\xxxxxxxxx\php\Apache\Solr\Service.php:338或Uncaughtexception'Apache_Solr_HttpTransportException'withmessage''404'Status:NotFound'inC:\xxxxxxxxx\php\Apache\Solr\Servi

HttpTransportException Apache section 39 php exception solr

24 25 262728 29 30