草庐IT

SOLR:更新时在URL字段上获取错误

我正在尝试更新SOLR文档的URL字段,但我要低于错误HTTP错误400:不良请求我认为这是因为URL字段image_new_path=https://aaa.com/bbb/posts/post_fta6cueqq1497926075564.jpegreq=urllib2.Request(url=solrPath+'/update/json?commit=true',data='[{"id":"'+docs['id']+'","image":{"set":'+image_new_path+'}}]')我必须更改一些特殊的角色吗?如果是,哪一个?solr错误:RequestHandlerBas

RediSearch vs. Elasticsearch vs. solr

1.RediSearchvs.ElasticsearchRediSearch是一个分布式全文搜索和聚合引擎,作为Redis之上的一个模块构建。它使用户能够以极快的方式在Redis数据集上执行复杂的搜索查询。RediSearch的独特架构是用C编写的,从头开始构建在优化的数据结构上,使其成为市场上其他搜索引擎的真正替代品。它可以作为一个独立的搜索引擎进行索引和可搜索数据的检索。当我们第一次推出RediSearch时,我们将其与Elasticsearch和Solr等流行搜索引擎进行了对比,以测试该引擎的强大程度。这一次,我们决定尝试一个稍微不同的基准,以便(a)为您提供一个清晰、可重复的设置,所有

hadoop - 如何使用 Solr 索引目录中的所有 csv 文件?

给定一个包含数百个制表符分隔的csv文件的目录,每个文件的第一行都没有标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或HDFS上。索引这些文件的最有效方法是什么? 最佳答案 如果你有很多文件,我认为有几种方法可以提高索引速度:首先,如果你的数据在本地磁盘上,你可以使用多线程建立索引,但需要注意,每个线程都有自己的索引输出目录。最后将它们合并成一个索引,以提高搜索速度。其次,如果你的数据在HDFS上,我觉得使用HadoopMapReduce来建立索引是非常强大的。另外,Pig或者Hive的一些UDF插件也可以很方便

solr - 运行 solr 索引时出错

我正在使用以下命令对nutch爬取的数据运行solrindex:bin/nutchsolrindexhttp://127.0.0.1:8983/solr//app/hadoop/tmp/crawled_pages/crawldb-linkdb/app/hadoop/tmp/crawled_pages/linkdb/app/hadoop/tmp/crawled_pages/segments/*我收到以下错误,我无法找到此问题的根本原因。org.apache.solr.common.SolrException:ERROR:[doc=http://www.bbc.co.uk/portugue

hadoop - Hadoop 和 Solr 的集成

根据我的研究,我可以集成hadoop和solr。我已经下载并安装了它们。但无法将它们相互融合。而且我也找不到适合此目的的教程。我使用Ubuntu14.04.02、ApacheHadoop2.6.0和Solr5.2.1。如何在我的机器上集成Hadoop和Solr?注意:我将hadoop安装为单节点。我对这个概念也很陌生。 最佳答案 您可以通过两种方式将Solr与hadoop一起使用基于文档在Hbase中使用lily索引器因此,如果您想使用HDFS中存在的文档由SOLR进行索引。您需要按照以下步骤操作:步骤A.solrctl--zkzo

java - 将 Apache Nutch 2.3 与 Hbase 0.94.14 和 Solr 5.2.1 集成时出错

我正在将Nutch与Hbase和Solr集成。启动Hadoop和Hbase服务后,我在NutchHome中运行如下命令sudo-Ebin/crawlurls/seed.txtTestCrawlhttp://localhost:8983/solr/2我遇到了这些错误:InjectingseedURLs/usr/local/apache-nutch-2.3.1/runtime/local/bin/nutchinjecturls/seed.txt-crawlIdTestCrawlInjectorJob:startingat2016-05-2615:41:14InjectorJob:Injec

hadoop - 从配置单元导入数据时出现 Solr DIH 错误

我正在尝试在solr5.1中加载和索引hdfs数据。我将数据存储在一个配置单元表中,并使用DIH导入和索引。我遵循了链接中提供的步骤SolrDIH.我在DIH上看不到任何关于hive的Material,所以想检查是否有人在这方面工作过。也在寻找关于上述场景的一些建议。 最佳答案 我能够让它工作。它的工作原理非常有趣。我们首先获得了hive2jar,并通过java使其运行以检查连接性。然后我们意识到要使用的jar是:hadoop-common-2.7.0-mapr-1703.jarhive-common-2.1.1-mapr-1703

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗?我应该使用 Nutch 吗? ..Cloudera?

我可以使用MapReduce框架创建索引并以某种方式将其添加到分布式Solr中吗?我有大量信息(日志文件和文档)将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要通过我们复制的Solr安装进行解析、索引和最终搜索。这是我提出的架构:使用MapReduce框架(Cloudera、Hadoop、Nutch,甚至DryadLinq)为索引准备这些文档将这些文档索引为Lucene.NET/Lucene(java)兼容的文件格式将该文件部署到我所有的Solr实例激活那个复制的索引如果可以的话,我需要选择一个MapReduce框架。由于Cloudera是供应商支持的,并且有大量补丁未包含在

hadoop - MapReduceIndexerTool - 在 Solr 中索引 HDFS 文件的最佳方式?

我有一个要求,我必须将HDFS文件(包括TXT、PDF、DOCX和其他丰富的文档)索引到Solr。目前,我正在使用LucidWorks连接器的DirectoryIngestMapper来实现相同的目的。https://github.com/lucidworks/hadoop-solr但我不能使用它,因为它有一定的局限性(主要是你不能指定要考虑的文件类型)。所以现在我正在研究使用MapReduceIndexerTool的可能性。但它没有很多初学者(我的意思是绝对基础!)级别的示例。有人可以发布一些示例链接以开始使用MapReduceIndexerTool吗?有没有其他更好或更简单的方法来

hadoop - CDH 5.7 上的 Streamsets solrcloud 无法连接到 Solr

我在CDH5.7.0版上使用流集从HDFS(源)加载文件并在Solr(目标)上创建记录的示例工作流程。验证失败-SOLR_03-无法连接到Solr实例:org.apache.solr.common.cloud.ZooKeeperException::ZooKeeper连接字符串。但是,从日志中,我看到它能够连接到zookeeper,但是,在调用/live_nodeszookeeperapi后以某种方式关闭了session。2016-06-0316:30:21,336INFOorg.apache.solr.common.cloud.ConnectionManager:Clientisco