sunspot-solr

hadoop - 在生产系统中将solr数据存储在hdfs中好吗？

我在hadoop集群中使用solr4.x。爬取的数据存储在hadoop中并在solr中建立索引。当前solr配置为使用本地文件系统。我得去生产了。使用本地文件系统好还是solr应该使用hdfs？使用hdfs有什么好处(如果我们必须使用)？将来我的索引大小可能会增加。最佳答案唯一的好处是复制和水平可扩展性。关于hadoop-在生产系统中将solr数据存储在hdfs中好吗？，我们在StackOverflow上找到一个类似的问题： https://stacko

在生 hadoop section solr

solr - 有关 Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

PS:如有错误，请指正我正在使用Nutch和Solr构建一个搜索引擎。我知道通过使用Solr，我可以提高搜索的效率-让Nutch单独爬取整个web。我也知道Hadoop是用来处理PB级数据的，通过形成集群和MapReduce。现在，我想知道的是1)因为，我将只在一台机器上运行这些开源软件，即我在本地主机上的笔记本电脑......Hadoop在我的情况下有什么好处，因为它形成了集群？如何在一台机器上形成集群？2)在我的案例中，MapReduce的重要性是什么？3)MAHOUT、CASSANDRA和HBASE将如何影响我的引擎？？？非常感谢这方面的任何帮助。如果我问了一个菜鸟问题，请向我道

MapReduce Hadoop blockquote section solr nutch mahout

hadoop - 在 Hadoop 作业中调用 Solr Cloud Index 时出错

我的目标是运行一个弹性mapreduce作业，该作业在map阶段查询Solr索引并将结果写入S3。在Hadoop作业中构建Solr索引(即写入Solr索引)时，Solr和Hadoop可以很好地协同工作。当我运行作业来查询Solr索引时，我在尝试启动Solr客户端时收到错误消息。我怀疑Hadoop和Solr之间存在依赖性问题，我记得它们都使用不同版本的http客户端，错误是找不到方法的问题。这是堆栈跟踪2013-07-2403:17:47,082FATALorg.apache.hadoop.mapred.Child(main):Errorrunningchild:java.lang.No

时出 hadoop apache HttpClientUtil section solr solrj emr

hadoop - Hue 无法访问 CDH 中的 Solr 集合

我正在使用CDH4并设置Hue和Solr。我还在Solr中创建了可以从SolrUI访问的集合。但是我在Hue中看不到这个集合。当我检查Hue日志时，我看到以下错误:用户[hue]未定义为代理用户google了一下，发现跟hue.ini里面的proxyuser设置有关系。即使在按照建议进行更改后，我也无法使其正常工作。请帮我解决这个问题。问候，最佳答案如果在使用搜索时出现错误，那是因为Hue没有设置为代理用户，详见documentation. 关于hadoop-Hue无法访问CDH中的

hadoop Solr section strong cloudera hue

hadoop - 如何使用sqoop从hadoop加载数据到solr？

我想将通过现在驻留在HDFS中的MR作业创建的索引复制到solr中。是否可以使用sqoop？如果是，要使用的jdbc连接器或驱动程序是什么？如果不是sqoop，还有其他方法吗？最佳答案您可能需要考虑使用水槽。https://flume.apache.org/FlumeUserGuide.html#flume-1-5-2-user-guideMorphlineSolrSink:此接收器非常适合将原始数据流式传输到HDFS(通过HdfsSink)并同时提取、转换并将相同数据加载到Solr中的用例(通过MorphlineSolrSin

hadoop sqoop section FlumeUserGuide flume jdbc solr hdfs

hadoop - HDFS 上的 Solr 核心创建失败

我正在尝试让Solr4.7.2与HDFS一起工作(使用Hadoop2.4.1)。这是solrconfig.xml:LUCENE_47hdfstrue2000010000hdfs://localhost:54310/solrtrue1true16384truetruetrue16192*:*一旦我启动Solr服务器，它就会抛出异常:hdp1:org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:Erroropeningnewsearcher我尝试调试，在jetty日志中发现如下错误:Caused

hadoop HDFS solr lt gt

search - 是否可以在一个 solr 集合下包含集合架构的字段子集的文档？

我们有4个不同的数据集，想要对它们执行分面搜索。我们目前正在使用SolrCloud并在将这些数据集索引到Solr之前将它们展平。尽管我们有关系数据，但我们的主要目标是分面搜索，而Solr似乎是正确的选择。我们数据的粗略结构:Dataset1(col1,col2,col3,col4)Dataset2(col1,col6,col7,col8)Dataset3(col6,col9,col10)扁平化数据集:dataset(col1,col2,col3,col4,col6,col7,col8,col9,col10)。最后，我们将它们扁平化为一个共同的结构，并在值不存在的地方有空值。到目前为止，

search solr col section field hadoop faceted-search solrcloud

hadoop - 由于 HDP 2.5 中的 Solr 异常，Hbase java 代码在表创建时卡住 - SolrServers 可用于处理此请求

我正在尝试使用javaAPI将其与hbase连接。我在192.168.56.101本地运行HortonworksSandbox(HDP2.5)。以下是我的java代码importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.client.HTable;importorg.apache.hadoop.hbase.client.Put;importorg.

卡住 SolrServers zookeeper environment hadoop hbase hortonworks-sandbox

hadoop - 使用 Apache Solr 导入或索引 Hive/HDFS 数据

我想使用ApacheSolr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知，第一步是将数据导入或索引到solr，但我对此知之甚少。这些是我的问题:选择哪种方式:DataImportHandler(DIH),HTTP?Solr4.9支持索引HDFS，有什么不同？环境:solr4.10+CDH5.11请帮忙。最佳答案尝试以下:-1.)在hive中创建一个基表hive>创建表solrinput3(用户名字符串)行格式分隔字段以','结尾；2.)将示例数据加载到表“solrinput3”中，如下所示:hive>i

hadoop Apache section solr hive lucene

apache-spark - 在 yarn 下的 spark 作业中连接 Kerberos + 启用 SSL 的 solr

我有启用了Kerberos和SSL的SOLR6集群。当我使用带有CloudSolrClient的测试客户端连接到它时，它工作正常。但是在spark作业驱动程序中运行相同的代码时，我得到以下校验和失败错误。我检查了所有提到的与校验和相关的问题，例如反向dns查找和添加javaunlimitedjar，所有yarn节点中的一切看起来都是正确的。我还可以验证它们是否正确，因为我的普通Java客户端能够从所有服务器进行查询。Causedby:org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:Errorfro

spark apache-spark DEBUG lt 34 hadoop ssl hadoop-yarn kerberos

22 23 242526 27 28