草庐IT

sunspot-solr

全部标签

solr - 使用 Hadoop 进行知识挖掘

我想做一个项目Hadoop和ma​​preduce并将其作为我的毕业设计。为此,我想了想,在互联网上进行了搜索,并提出了实现一些基本的知识挖掘算法的想法,比如在Facebook或stckoverflow、Quora等社交网站上说,并绘制一些统计图、比较频率分布和其他类型的重要值。出于搜索目的,使用ApacheSolr是否明智?我想知道如果使用上述工具可以实现这样的事情,那么我应该如何构建这个小想法?我在哪里可以了解使用java和mapreduce技术易于实现的知识挖掘算法?如果这是一个错误的想法,请建议在使用Hadoop和其他相关子项目时还可以做些什么?谢谢

solr - 如何使用 Solr 在 hadoop 集群中搜索数据库

我目前在一个hadoop集群中有许多数据库,希望将这些数据库中的一些表索引到Solr索引中以供搜索。有没有办法做到这一点?或者是否有某种机制可以在hadoop本身中执行这种搜索? 最佳答案 您可以使用hadoop本身。但是,如果您正在执行各种正则表达式搜索,那么solr是一个非常好的选择。您是使用hadoop中的hive还是hbase来存储数据库,还是存储在平面文件中? 关于solr-如何使用Solr在hadoop集群中搜索数据库,我们在StackOverflow上找到一个类似的问题:

hadoop - solr 和 hadoop 之间的 Slf4j 兼容性问题

我在hadoop上使用庞然大物solr,我在slf4j版本中遇到了冲突。Solr3.6.2使用slf4j-api-1.6.1,hadoop1.0.4有slf4j-api-1.4.3的库。因此,我无法在hadoop上运行庞大的solrjar文件。解决此冲突的最佳方法是什么?一种选择是替换hadoop中的slf4j库,但我不愿意这样做。任何解决方案将不胜感激。 最佳答案 您应该能够在Hadoop中将slf4j-api-1.4.3.jar替换为slf4j-api-1.6.1.jar而不会出现任何问题,因为从调用者的角度来看,所有版本的sl

hadoop - 管理报告,当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者?

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告,根据其基本原理,完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字,发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用,但是,我不明白它最终是否使用Hadoop。我会有很多报告,至少需要索引和分组。但是我不想使用额外的表来增加开销。而且,我是.Net(而非Java)开发人员,我的应用程序也基于.NetFramework。

hadoop - Solr HBase 搜索引擎

我需要使用SolrCloud作为HBase和HDFS之上的搜索引擎来搜索大量文档。目前这些文档在不同的数据源中。我很困惑Solr是否应该在其内部搜索、索引和存储这些文档,或者Solr应该只用于索引和文档以及文档的元数据应该驻留在HBAse/HDFS层中。我曾尝试搜索SolrHBase集成如何最好地工作(意味着应该在Solr级别做什么以及在Hadoop级别做什么)但徒劳无功。有没有人之前做过这种大数据搜索,能给点指点吗?谢谢 最佳答案 Solr通过其索引提供快速搜索。Solr为此使用倒排索引。所以,你index文件到sol,它会创建索

hadoop - Nutch v Solr v Nutch+Solr

一个相关QuestiononStackoverflow存在,但六年半前有人问过。从那时起,Nutch发生了很多变化。基本上我有两个问题。我们如何比较Nutch和Solr?我们在什么情况下需要,为什么把这两者结合起来用于爬虫更好?它与在独立模式下(或使用hadoop)使用它们中的任何一个有何不同? 最佳答案 在当前阶段,Nutch只负责抓取网页,即访问网页、提取内容、查找更多链接并重复该过程(我跳过了中间的很多复杂内容,但希望你能明白这个想法)。爬取过程的最后阶段是将数据存储在您的后端(ES/Solr是1.x分支上支持的数据存储)。因

hadoop - hbase-indexer solr numFound 与 hbase 表行大小不同

最近我的团队在CDH上使用hbase-indexer将hbase表列索引到solr。当我们部署hbase-indexer服务器(称为Key-ValueStoreIndexer)并开始测试时。我们发现hbase表和solr索引之间的行大小不同的情况:我们使用Phoenix来统计hbase表的行数:0:jdbc:phoenix:slave1,slave2,slave3:2181>SELECT/*+NO_INDEX*/COUNT(1)FROMC_PICRECORD;+------------------------------------------+|COUNT(1)|+---------

hadoop - 如何在 Solr 中索引 HDFS pdf 文件?

hadoopjarjobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jarcom.lucidworks.hadoop.ingest.IngestJob-Dlww.commit.on.close=true-DcsvFieldMapping=0=id,1=text-clscom.lucidworks.hadoop.ingest.CSVIngestMapper-chdp1-i/user/solr/data/csv/mydata.csv-ofcom.lucidworks.hadoop.io.LWMapRedOutputFormat-shttp://localhost

hadoop - nutch 1.10 作业失败,错误请求错误索引到 solr 5.3.1

我在测试环境中组装了一个爬虫,该爬虫在2个小网站上运行良好,包括成功索引到solr。因此,nutch和solr之间的集成似乎很好。我所做的唯一更改是向seed.txt添加另一个站点,并在regex-urlfilters.txt中添加另一行,使用与其他站点完全相同的语法。现在,当我运行爬虫时,它可以正常运行一段时间,然后崩溃并显示“作业失败!”错误和有用的信息很少。这是控制台的输出。值得注意的是,这是在爬网中创建的第3个段,因此在错误发生之前它已经成功索引了2个段。新站点中是否存在导致损坏的内容?Indexing20151030150906toindex/opt/apache-nutch

java - Lucidworks 保存 solr 格式未知字段

我正在用sparkjava编写脚本。我需要使用Lucidworks-spark-solr工具(https://github.com/lucidworks/spark-solr)将数据(从DataFrame)插入到Solr集合中我的schema.xml:id我的数据框:DataFramedf=sqlContext.sql("SELECTid,age,height,nameFROMTABLE");df.show()给出:+--------------------+-----------+------+------+|id|age|height|name|+-----------------