SOLR

hadoop - 在 Hadoop 作业中调用 Solr Cloud Index 时出错

我的目标是运行一个弹性mapreduce作业，该作业在map阶段查询Solr索引并将结果写入S3。在Hadoop作业中构建Solr索引(即写入Solr索引)时，Solr和Hadoop可以很好地协同工作。当我运行作业来查询Solr索引时，我在尝试启动Solr客户端时收到错误消息。我怀疑Hadoop和Solr之间存在依赖性问题，我记得它们都使用不同版本的http客户端，错误是找不到方法的问题。这是堆栈跟踪2013-07-2403:17:47,082FATALorg.apache.hadoop.mapred.Child(main):Errorrunningchild:java.lang.No

时出 hadoop apache HttpClientUtil section solr solrj emr

hadoop - Hue 无法访问 CDH 中的 Solr 集合

我正在使用CDH4并设置Hue和Solr。我还在Solr中创建了可以从SolrUI访问的集合。但是我在Hue中看不到这个集合。当我检查Hue日志时，我看到以下错误:用户[hue]未定义为代理用户google了一下，发现跟hue.ini里面的proxyuser设置有关系。即使在按照建议进行更改后，我也无法使其正常工作。请帮我解决这个问题。问候，最佳答案如果在使用搜索时出现错误，那是因为Hue没有设置为代理用户，详见documentation. 关于hadoop-Hue无法访问CDH中的

hadoop Solr section strong cloudera hue

hadoop - 如何使用sqoop从hadoop加载数据到solr？

我想将通过现在驻留在HDFS中的MR作业创建的索引复制到solr中。是否可以使用sqoop？如果是，要使用的jdbc连接器或驱动程序是什么？如果不是sqoop，还有其他方法吗？最佳答案您可能需要考虑使用水槽。https://flume.apache.org/FlumeUserGuide.html#flume-1-5-2-user-guideMorphlineSolrSink:此接收器非常适合将原始数据流式传输到HDFS(通过HdfsSink)并同时提取、转换并将相同数据加载到Solr中的用例(通过MorphlineSolrSin

hadoop sqoop section FlumeUserGuide flume jdbc solr hdfs

hadoop - HDFS 上的 Solr 核心创建失败

我正在尝试让Solr4.7.2与HDFS一起工作(使用Hadoop2.4.1)。这是solrconfig.xml:LUCENE_47hdfstrue2000010000hdfs://localhost:54310/solrtrue1true16384truetruetrue16192*:*一旦我启动Solr服务器，它就会抛出异常:hdp1:org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:Erroropeningnewsearcher我尝试调试，在jetty日志中发现如下错误:Caused

hadoop HDFS solr lt gt

search - 是否可以在一个 solr 集合下包含集合架构的字段子集的文档？

我们有4个不同的数据集，想要对它们执行分面搜索。我们目前正在使用SolrCloud并在将这些数据集索引到Solr之前将它们展平。尽管我们有关系数据，但我们的主要目标是分面搜索，而Solr似乎是正确的选择。我们数据的粗略结构:Dataset1(col1,col2,col3,col4)Dataset2(col1,col6,col7,col8)Dataset3(col6,col9,col10)扁平化数据集:dataset(col1,col2,col3,col4,col6,col7,col8,col9,col10)。最后，我们将它们扁平化为一个共同的结构，并在值不存在的地方有空值。到目前为止，

search solr col section field hadoop faceted-search solrcloud

hadoop - 由于 HDP 2.5 中的 Solr 异常，Hbase java 代码在表创建时卡住 - SolrServers 可用于处理此请求

我正在尝试使用javaAPI将其与hbase连接。我在192.168.56.101本地运行HortonworksSandbox(HDP2.5)。以下是我的java代码importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.client.HTable;importorg.apache.hadoop.hbase.client.Put;importorg.

卡住 SolrServers zookeeper environment hadoop hbase hortonworks-sandbox

hadoop - 使用 Apache Solr 导入或索引 Hive/HDFS 数据

我想使用ApacheSolr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知，第一步是将数据导入或索引到solr，但我对此知之甚少。这些是我的问题:选择哪种方式:DataImportHandler(DIH),HTTP?Solr4.9支持索引HDFS，有什么不同？环境:solr4.10+CDH5.11请帮忙。最佳答案尝试以下:-1.)在hive中创建一个基表hive>创建表solrinput3(用户名字符串)行格式分隔字段以','结尾；2.)将示例数据加载到表“solrinput3”中，如下所示:hive>i

hadoop Apache section solr hive lucene

apache-spark - 在 yarn 下的 spark 作业中连接 Kerberos + 启用 SSL 的 solr

我有启用了Kerberos和SSL的SOLR6集群。当我使用带有CloudSolrClient的测试客户端连接到它时，它工作正常。但是在spark作业驱动程序中运行相同的代码时，我得到以下校验和失败错误。我检查了所有提到的与校验和相关的问题，例如反向dns查找和添加javaunlimitedjar，所有yarn节点中的一切看起来都是正确的。我还可以验证它们是否正确，因为我的普通Java客户端能够从所有服务器进行查询。Causedby:org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:Errorfro

spark apache-spark DEBUG lt 34 hadoop ssl hadoop-yarn kerberos

solr - 使用 Hadoop 进行知识挖掘

我想做一个项目Hadoop和mapreduce并将其作为我的毕业设计。为此，我想了想，在互联网上进行了搜索，并提出了实现一些基本的知识挖掘算法的想法，比如在Facebook或stckoverflow、Quora等社交网站上说，并绘制一些统计图、比较频率分布和其他类型的重要值。出于搜索目的，使用ApacheSolr是否明智？我想知道如果使用上述工具可以实现这样的事情，那么我应该如何构建这个小想法？我在哪里可以了解使用java和mapreduce技术易于实现的知识挖掘算法？如果这是一个错误的想法，请建议在使用Hadoop和其他相关子项目时还可以做些什么？谢谢

挖掘 Hadoop strong section solr projects

solr - 如何使用 Solr 在 hadoop 集群中搜索数据库

我目前在一个hadoop集群中有许多数据库，希望将这些数据库中的一些表索引到Solr索引中以供搜索。有没有办法做到这一点？或者是否有某种机制可以在hadoop本身中执行这种搜索？最佳答案您可以使用hadoop本身。但是，如果您正在执行各种正则表达式搜索，那么solr是一个非常好的选择。您是使用hadoop中的hive还是hbase来存储数据库，还是存储在平面文件中？关于solr-如何使用Solr在hadoop集群中搜索数据库，我们在StackOverflow上找到一个类似的问题：

中搜 hadoop section stackoverflow solr spotlight

28 29 303132 33 34