草庐IT

hadoop - solr 和 hadoop 之间的 Slf4j 兼容性问题

我在hadoop上使用庞然大物solr,我在slf4j版本中遇到了冲突。Solr3.6.2使用slf4j-api-1.6.1,hadoop1.0.4有slf4j-api-1.4.3的库。因此,我无法在hadoop上运行庞大的solrjar文件。解决此冲突的最佳方法是什么?一种选择是替换hadoop中的slf4j库,但我不愿意这样做。任何解决方案将不胜感激。 最佳答案 您应该能够在Hadoop中将slf4j-api-1.4.3.jar替换为slf4j-api-1.6.1.jar而不会出现任何问题,因为从调用者的角度来看,所有版本的sl

hadoop - 管理报告,当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者?

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告,根据其基本原理,完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字,发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用,但是,我不明白它最终是否使用Hadoop。我会有很多报告,至少需要索引和分组。但是我不想使用额外的表来增加开销。而且,我是.Net(而非Java)开发人员,我的应用程序也基于.NetFramework。

hadoop - Solr HBase 搜索引擎

我需要使用SolrCloud作为HBase和HDFS之上的搜索引擎来搜索大量文档。目前这些文档在不同的数据源中。我很困惑Solr是否应该在其内部搜索、索引和存储这些文档,或者Solr应该只用于索引和文档以及文档的元数据应该驻留在HBAse/HDFS层中。我曾尝试搜索SolrHBase集成如何最好地工作(意味着应该在Solr级别做什么以及在Hadoop级别做什么)但徒劳无功。有没有人之前做过这种大数据搜索,能给点指点吗?谢谢 最佳答案 Solr通过其索引提供快速搜索。Solr为此使用倒排索引。所以,你index文件到sol,它会创建索

hadoop - Nutch v Solr v Nutch+Solr

一个相关QuestiononStackoverflow存在,但六年半前有人问过。从那时起,Nutch发生了很多变化。基本上我有两个问题。我们如何比较Nutch和Solr?我们在什么情况下需要,为什么把这两者结合起来用于爬虫更好?它与在独立模式下(或使用hadoop)使用它们中的任何一个有何不同? 最佳答案 在当前阶段,Nutch只负责抓取网页,即访问网页、提取内容、查找更多链接并重复该过程(我跳过了中间的很多复杂内容,但希望你能明白这个想法)。爬取过程的最后阶段是将数据存储在您的后端(ES/Solr是1.x分支上支持的数据存储)。因

hadoop - hbase-indexer solr numFound 与 hbase 表行大小不同

最近我的团队在CDH上使用hbase-indexer将hbase表列索引到solr。当我们部署hbase-indexer服务器(称为Key-ValueStoreIndexer)并开始测试时。我们发现hbase表和solr索引之间的行大小不同的情况:我们使用Phoenix来统计hbase表的行数:0:jdbc:phoenix:slave1,slave2,slave3:2181>SELECT/*+NO_INDEX*/COUNT(1)FROMC_PICRECORD;+------------------------------------------+|COUNT(1)|+---------

hadoop - 如何在 Solr 中索引 HDFS pdf 文件?

hadoopjarjobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jarcom.lucidworks.hadoop.ingest.IngestJob-Dlww.commit.on.close=true-DcsvFieldMapping=0=id,1=text-clscom.lucidworks.hadoop.ingest.CSVIngestMapper-chdp1-i/user/solr/data/csv/mydata.csv-ofcom.lucidworks.hadoop.io.LWMapRedOutputFormat-shttp://localhost

hadoop - nutch 1.10 作业失败,错误请求错误索引到 solr 5.3.1

我在测试环境中组装了一个爬虫,该爬虫在2个小网站上运行良好,包括成功索引到solr。因此,nutch和solr之间的集成似乎很好。我所做的唯一更改是向seed.txt添加另一个站点,并在regex-urlfilters.txt中添加另一行,使用与其他站点完全相同的语法。现在,当我运行爬虫时,它可以正常运行一段时间,然后崩溃并显示“作业失败!”错误和有用的信息很少。这是控制台的输出。值得注意的是,这是在爬网中创建的第3个段,因此在错误发生之前它已经成功索引了2个段。新站点中是否存在导致损坏的内容?Indexing20151030150906toindex/opt/apache-nutch

java - Lucidworks 保存 solr 格式未知字段

我正在用sparkjava编写脚本。我需要使用Lucidworks-spark-solr工具(https://github.com/lucidworks/spark-solr)将数据(从DataFrame)插入到Solr集合中我的schema.xml:id我的数据框:DataFramedf=sqlContext.sql("SELECTid,age,height,nameFROMTABLE");df.show()给出:+--------------------+-----------+------+------+|id|age|height|name|+-----------------

lucene - 我从哪里开始学习 Lucene.NET Solr Hadoop 和 MapReduce?

我是一名.NET开发人员,我需要学习Lucene,这样我们才能运行非常大规模的搜索服务,删除最终用户无权访问的条目。(即用户可以搜索所有权限级别为3或更高的文件,但不能搜索权限级别为2或1的文件)我应该从哪里开始学习,应该考虑哪些产品?老实说,我有点不知所措,但我下定决心要弄清楚这一切……最终。 最佳答案 如果您想要一本涵盖所有Lucene基础知识的书,请考虑“LuceneinAction”。即使代码示例是Java,您也可以轻松地将它们移植到.NET。当然,Web上也有大量资源,例如SO和Lucene邮件列表,它们应该可以帮助您。对

java - org.apache.solr.common.SolrException : Bad Request Bad Request request: http://localhost:8080/solr/update? wt=javabin&version=2

请大家帮帮我我正在尝试使用NUTCH抓取网站,但它给我错误“java.io.IOException:Jobfailed!”我正在运行此命令“bin/nutchsolrindexhttp://:8080/solr/crawl/crawldb-linkdbcrawl/linkdbcrawl/segments/*”并且我正在使用NUTCH1.5.1和SOLR3.6.1以及jdkjava-7-openjdk-i386和ubuntu12.04。在hadoop.log存在于NUTCH/log文件夹中显示以下内容:2012-09-1312:56:10,524INFOsolr.SolrIndexer-