SOLR

java - Solr:得分完全匹配高于部分匹配

在一个非常简单的例子中，我有三个文件，文件名分别为“Lark”、“Larker”和“Larking”(没有文件扩展名)。在solr中，我索引这三个文件，将文件名映射到“标题”字段。当我搜索“Lark”时，所有三个文档都被返回(这是我想要的)但它们都被赋予相同的分数。我更希望“Lark”获得最高分，因为它与我的查询完全匹配，其他人排在后面。我相信他们获得相同分数的原因是因为在索引时使用了EdgeNGramFilterFactory。每个文档都被索引为“La”、“Lar”、“Lark”，其中两个文档(“Larker”和“Larking”)被索引了一些额外的变体。所以实际上每个文档都与查询“

得分 java 34 lt gt solr lucene solrj

hadoop - 如何将 hadoop 数据复制到 SOLR

我有一个SOLR搜索，它使用lucene索引作为后端。我在Hadoop中也有一些我想使用的数据。如何将这些数据复制到SOLR中？？在谷歌搜索后，我能找到的唯一链接告诉我如何在SOLR中使用HDFS索引而不是本地索引。我不想直接从hadoop读取索引，我想将它们复制到SOLR并从那里读取。如何复制？如果有一些增量复制机制就好了。最佳答案如果您有一个独立的Solr实例，那么您可能会遇到一些扩展问题，具体取决于数据量。鉴于您使用的是Hadoop/HDFS，我假设数据量很大。在这种情况下，您可能需要查看SolrCloud.至于从hdfs

hadoop SOLR noreferrer section noopener lucene hdfs

hadoop - Solr 中的结构化和非结构化数据索引

我们有一个要求，即结构化和非结构化数据都进入系统。我们需要为它们建立索引，然后在其上启用搜索功能。我们在Hadoop平台上使用SolrCloud。对于结构化数据，我们计划将数据放入HBase，对于非结构化数据，我们计划直接放入HDFS。我的问题是如何在单个Solr核心下索引这些资源？是否可以在SolrCloud中的单个核心/集合下索引结构化和非结构化数据，然后在该索引上启用搜索功能？提前致谢。最佳答案您最多可以拥有一个Solr架构，其中包含所有可能的字段名称，即您的结构化和非结构化数据。另请注意，由于您提到了非结构化，因此您可以

结构化 hadoop section 结构 solr hbase solrj solr4

hadoop - 如何将hbase数据索引到solr

我必须在solr中索引和搜索实时数据。数据存储在hbase列中。我在LINKEDIN找到了关于此的指南但它是针对Clouderahadoop的。它不能与apachehadoop一起使用。是否有替代品？最佳答案试试hbase-indexer，https://github.com/lucidworks/hbase-indexer我相信是你的linkedin链接中提到的一个分支。关于hadoop-如何将hbase数据索引到solr，我们在StackOverflow上找到一个类似的问题：

hadoop hbase section https indexing solr lucene

hadoop - Solr - 恢复 Zookeeper 后丢失配置

我刚刚继承了一个由7台服务器组成并通过Ambari管理的hadoop集群(之前从未使用过hadoop)。今天Ambari丢失了server3上的所有服务以及ZooKeeper服务(托管在服务器1、2和3上)、ZKFailOver(托管在服务器1和2上)和ZooKeeper客户端(托管在4、5、6、7上)的心跳停了下来，都拒绝启动。这也导致Solr服务停止工作。经过一些调查后，我发现服务器3上的Zookeeper由于CRC问题在最近的快照上出错。在阅读更多内容后，我删除了.../zookeeper/version-2/中的旧快照文件并运行“zk-formatZK”(在服务器1上)。Zoo

Zookeeper hadoop server section Solr apache-zookeeper

hadoop - 通过 Hive 外部表将 Hbase 数据索引到 solr

我已经通过Nutch2.3.1爬取了一些数据。数据存储在Hbase0.98表中。我创建了一个从hbase表导入数据的外部表。现在我必须将此数据索引到solr4.10.3。为此，我关注了this。众所周知的教程。我已经像这样创建了配置单元表createexternaltableifnotexistssolr_items(idSTRING,contentSTRING,urlSTRING,titleSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'storedby"com.chimpler.hive.solr.SolrStorageHandler"w

hadoop Hbase section code solr indexing hive

hadoop - Apache Solr 支持 ORC 文件格式

我在Hive中有一堆表，存储为ORC。我想在SolrCloud集合中索引他们的数据。Solr是否支持索引以ORC格式存储的数据？我用谷歌搜索，但没有找到任何结果。最佳答案看起来您希望SolR从特定的Hive文件格式读取数据。您可能会以另一种方式看待问题，即使用Hive将数据写入SolR——从而让Hive处理实际输入文件的复杂性格式(无论是ORC、Parquet、AVRO还是其他格式——甚至是HBase数据文件)。在LucidWorksGitHubrepo您会发现一个标记为hive-solr的项目。看看。

hadoop Apache section strong Hive solr orc

hadoop - 在 HDFS-Solr 中存储索引文件

我正在配置Solr以将索引数据文件存储在HDFS中。bin/solrstart-ecloud-c-Dsolr.directoryFactory=HdfsDirectoryFactory-Dsolr.lock.type=hdfs-Dsolr.hdfs.home=hdfs://localhost:50070/solr当我尝试打开solr的url时出现“SolrCore初始化失败”错误，创建目录时出现问题。最佳答案使用的端口好像不对hdfs://localhost:50070/solr试试hdfs://localhost:8020/s

HDFS-Solr hadoop section 时出 code solr solrcloud

hadoop - 在生产系统中将solr数据存储在hdfs中好吗？

我在hadoop集群中使用solr4.x。爬取的数据存储在hadoop中并在solr中建立索引。当前solr配置为使用本地文件系统。我得去生产了。使用本地文件系统好还是solr应该使用hdfs？使用hdfs有什么好处(如果我们必须使用)？将来我的索引大小可能会增加。最佳答案唯一的好处是复制和水平可扩展性。关于hadoop-在生产系统中将solr数据存储在hdfs中好吗？，我们在StackOverflow上找到一个类似的问题： https://stacko

在生 hadoop section solr

solr - 有关 Nutch、Hadoop、Solr、MapReduce 和 Mahout 的信息

PS:如有错误，请指正我正在使用Nutch和Solr构建一个搜索引擎。我知道通过使用Solr，我可以提高搜索的效率-让Nutch单独爬取整个web。我也知道Hadoop是用来处理PB级数据的，通过形成集群和MapReduce。现在，我想知道的是1)因为，我将只在一台机器上运行这些开源软件，即我在本地主机上的笔记本电脑......Hadoop在我的情况下有什么好处，因为它形成了集群？如何在一台机器上形成集群？2)在我的案例中，MapReduce的重要性是什么？3)MAHOUT、CASSANDRA和HBASE将如何影响我的引擎？？？非常感谢这方面的任何帮助。如果我问了一个菜鸟问题，请向我道

MapReduce Hadoop blockquote section solr nutch mahout

27 28 293031 32 33