sunspot-solr

solr - 使用 Hadoop 进行知识挖掘

我想做一个项目Hadoop和mapreduce并将其作为我的毕业设计。为此，我想了想，在互联网上进行了搜索，并提出了实现一些基本的知识挖掘算法的想法，比如在Facebook或stckoverflow、Quora等社交网站上说，并绘制一些统计图、比较频率分布和其他类型的重要值。出于搜索目的，使用ApacheSolr是否明智？我想知道如果使用上述工具可以实现这样的事情，那么我应该如何构建这个小想法？我在哪里可以了解使用java和mapreduce技术易于实现的知识挖掘算法？如果这是一个错误的想法，请建议在使用Hadoop和其他相关子项目时还可以做些什么？谢谢

挖掘 Hadoop strong section solr projects

solr - 如何使用 Solr 在 hadoop 集群中搜索数据库

我目前在一个hadoop集群中有许多数据库，希望将这些数据库中的一些表索引到Solr索引中以供搜索。有没有办法做到这一点？或者是否有某种机制可以在hadoop本身中执行这种搜索？最佳答案您可以使用hadoop本身。但是，如果您正在执行各种正则表达式搜索，那么solr是一个非常好的选择。您是使用hadoop中的hive还是hbase来存储数据库，还是存储在平面文件中？关于solr-如何使用Solr在hadoop集群中搜索数据库，我们在StackOverflow上找到一个类似的问题：

中搜 hadoop section stackoverflow solr spotlight

hadoop - solr 和 hadoop 之间的 Slf4j 兼容性问题

我在hadoop上使用庞然大物solr，我在slf4j版本中遇到了冲突。Solr3.6.2使用slf4j-api-1.6.1，hadoop1.0.4有slf4j-api-1.4.3的库。因此，我无法在hadoop上运行庞大的solrjar文件。解决此冲突的最佳方法是什么？一种选择是替换hadoop中的slf4j库，但我不愿意这样做。任何解决方案将不胜感激。最佳答案您应该能够在Hadoop中将slf4j-api-1.4.3.jar替换为slf4j-api-1.6.1.jar而不会出现任何问题，因为从调用者的角度来看，所有版本的sl

hadoop Slf4j section slf4 slf4j-api solr behemoth

hadoop - 管理报告，当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者？

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告，根据其基本原理，完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字，发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用，但是，我不明白它最终是否使用Hadoop。我会有很多报告，至少需要索引和分组。但是我不想使用额外的表来增加开销。而且，我是.Net(而非Java)开发人员，我的应用程序也基于.NetFramework。

Cassandra 两者 strong section hadoop solr apache-spark apache-hive

hadoop - Solr HBase 搜索引擎

我需要使用SolrCloud作为HBase和HDFS之上的搜索引擎来搜索大量文档。目前这些文档在不同的数据源中。我很困惑Solr是否应该在其内部搜索、索引和存储这些文档，或者Solr应该只用于索引和文档以及文档的元数据应该驻留在HBAse/HDFS层中。我曾尝试搜索SolrHBase集成如何最好地工作(意味着应该在Solr级别做什么以及在Hadoop级别做什么)但徒劳无功。有没有人之前做过这种大数据搜索，能给点指点吗？谢谢最佳答案 Solr通过其索引提供快速搜索。Solr为此使用倒排索引。所以，你index文件到sol，它会创建索

hadoop HBase section Solr strong search hdfs

hadoop - Nutch v Solr v Nutch+Solr

一个相关QuestiononStackoverflow存在，但六年半前有人问过。从那时起，Nutch发生了很多变化。基本上我有两个问题。我们如何比较Nutch和Solr？我们在什么情况下需要，为什么把这两者结合起来用于爬虫更好？它与在独立模式下(或使用hadoop)使用它们中的任何一个有何不同？最佳答案在当前阶段，Nutch只负责抓取网页，即访问网页、提取内容、查找更多链接并重复该过程(我跳过了中间的很多复杂内容，但希望你能明白这个想法)。爬取过程的最后阶段是将数据存储在您的后端(ES/Solr是1.x分支上支持的数据存储)。因

Nutch Solr section hadoop web-scraping web-crawler

hadoop - hbase-indexer solr numFound 与 hbase 表行大小不同

最近我的团队在CDH上使用hbase-indexer将hbase表列索引到solr。当我们部署hbase-indexer服务器(称为Key-ValueStoreIndexer)并开始测试时。我们发现hbase表和solr索引之间的行大小不同的情况:我们使用Phoenix来统计hbase表的行数:0:jdbc:phoenix:slave1,slave2,slave3:2181>SELECT/*+NO_INDEX*/COUNT(1)FROMC_PICRECORD;+------------------------------------------+|COUNT(1)|+---------

hbase hbase-indexer section strong hadoop solr apache-phoenix

hadoop - 如何在 Solr 中索引 HDFS pdf 文件？

hadoopjarjobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jarcom.lucidworks.hadoop.ingest.IngestJob-Dlww.commit.on.close=true-DcsvFieldMapping=0=id,1=text-clscom.lucidworks.hadoop.ingest.CSVIngestMapper-chdp1-i/user/solr/data/csv/mydata.csv-ofcom.lucidworks.hadoop.io.LWMapRedOutputFormat-shttp://localhost

何在 hadoop lucidworks section indexing solr hdfs

hadoop - nutch 1.10 作业失败，错误请求错误索引到 solr 5.3.1

我在测试环境中组装了一个爬虫，该爬虫在2个小网站上运行良好，包括成功索引到solr。因此，nutch和solr之间的集成似乎很好。我所做的唯一更改是向seed.txt添加另一个站点，并在regex-urlfilters.txt中添加另一行，使用与其他站点完全相同的语法。现在，当我运行爬虫时，它可以正常运行一段时间，然后崩溃并显示“作业失败!”错误和有用的信息很少。这是控制台的输出。值得注意的是，这是在爬网中创建的第3个段，因此在错误发生之前它已经成功索引了2个段。新站点中是否存在导致损坏的内容？Indexing20151030150906toindex/opt/apache-nutch

hadoop nutch solr apache IndexingJob

java - Lucidworks 保存 solr 格式未知字段

我正在用sparkjava编写脚本。我需要使用Lucidworks-spark-solr工具(https://github.com/lucidworks/spark-solr)将数据(从DataFrame)插入到Solr集合中我的schema.xml:id我的数据框:DataFramedf=sqlContext.sql("SELECTid,age,height,nameFROMTABLE");df.show()给出:+--------------------+-----------+------+------+|id|age|height|name|+-----------------

Lucidworks java 34 name indexed hadoop apache-spark solr

23 24 252627 28 29