草庐IT

HDFS-Solr

全部标签

java - 基于 Solr 规则的提升

我正在使用Solr-5.0.0。我正在搜索字段product_name。我需要添加一些规则以获得相关结果。如果我搜索一个词,如果存在完全匹配,它应该排在第一位。例如:如果我搜索laptop,它应该首先返回与laptop完全相同的product_name。如果我搜索一个以上的词,它应该遵守规则1。同时最小词长距离的名称排在第一位。例如:如果我搜索delllaptop,它应该首先返回Delllaptop而不是dellinspironlaptop。如果我搜索单词,它不应返回包含with或without单词的结果。例如:在搜索laptopbag时,它不应该首先给出delllaptopwithb

java - Solr 不会覆盖 - 重复的 uniqueKey 条目

我对Solr5.3.1有疑问。我的架构相当简单。我有一个uniqueKey,它是字符串形式的“id”。索引、存储和必需的、非多值的。我首先使用“content_type:document_unfinished”添加文档,然后覆盖相同的文档,具有相同的id但另一个content_type:document。然后该文档在索引中出现两次。同样,唯一的uniqueKey是字符串形式的“id”。该id最初来自mysql-indexprimaryint。而且看起来这种情况不止发生一次:http://lucene.472066.n3.nabble.com/uniqueKey-not-enforced

Hadoop、HDFS、Hive、Hbase之间的关系

Hadoop:是一个分布式计算的开源框架HDFS:是Hadoop的三大核心组件之一Hive:用户处理存储在HDFS中的数据,hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等Hive与HBase的区别与联系1、区别Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive

java - 在 Solr 中超时查询

我通过自定义开发层查询到solr,我在我的层中超时的几个查询仍在solr实例中。solr中是否有一个参数可用于使特定查询超时 最佳答案 如Solrquerycontinuesafterclientdisconnects?中所述和writtenintheSolrFAQInternally,Solrdoesnothingtotimeoutanyrequests--itletsbothupdatesandqueriestakehoweverlongtheyneedtotaketobeprocessedfully.但在FAQ的同一位置写着H

java - Solr 和 postgresql 集成

我想将搜索引擎Solr添加到我的Java应用程序中。我想在Solr中索引一些信息,但不是所有信息,因为我的数据库非常具体。我不想解释所有内容,因为它很复杂,所以我将使用一个简单的示例。假设我有一个名为T的表,其中有两列col1和col2:col1|col2------------------|----------sometext...|123anothertext...|41blabla...|124我只想索引Solr引擎中的col1列。我不想在Solr中索引col2列-我知道这是可能的,但我不想这样做。在搜索我的应用程序时,我想从两列中过滤信息。例如,我需要在col1中获取具有"Lo

大数据小白初探HDFS从零到入门(一)

目录1.前言2.大数据的诞生3.发展趋势及应用4.离线计算和实时计算5.大数据的特性1.前言    前两天把Hbase的初级入门知识整理了下,在文章中提到了“HDFS”这个大数据的基础,有同事小伙伴想要了解下这方面的知识,今天我把之前整理的内容也给同事讲了下,顺便我把他又整理了下放了出来给大家,希望对大数据概念这块一知半解的小伙伴,能够对大数据整体这块有一个清晰的认识,好了废话不多说,进入正题。2.大数据的诞生   对于大数据这块的概念,有很多官方的定义,不过理解上来说,每个人都有不通的理解,我就先说下我的理解,说这个之前我们先说下之前的情况,在大数据诞生之前,我们是如何处理各种情况的,按照场

java - 嵌入solr有什么问题

我在网络应用程序中使用Solr。由于部署会更简单,我想嵌入Solr。然而,http://wiki.apache.org/solr/EmbeddedSolr说“嵌入Solr不太灵活,更难支持,没有经过充分测试,应该保留用于特殊情况”?我想更详细地了解权衡。我想知道为什么它不太灵活?什么情况下推荐使用嵌入模式? 最佳答案 据我所知,这些警告是正确的无法公开嵌入式服务器如果有一天,您想要将应用程序的solr部分公开给世界其他地方,您将无法做到。这已在SO问题AccessembeddedSolrserverfromexternalappli

java - 在 Solr(J) 中搜索嵌套文档

我为PDF文档实现了一个简单的添加工具。我首先创建一个包含所有文档的主文档(SolrInputDocument)。它获取作者、文件哈希、关键字、'content_type=document'等字段。之后我为每个页面生成一个SolrInputDocument,这个对象得到一个像'parentID_p01'这样的id,页面作为一个字段值,'content_type=page'usw。最后,我使用addChildDocument()将所有页面文档添加到我的主文档中。现在我的问题是,如何在所有文档的所有页面中执行给定单词的搜索,例如:Document1.pdf'thisismydoc1titl

java - Solr 找不到 JDBC 驱动程序

多年来我没有用Java做过任何事情,所以我试图尽可能简单地完成这项工作。我正在运行Ubuntu10.04。到目前为止,我刚刚完成了:apt-getinstallsolr-jettylibmysql-java并设置我所有的配置文件以从我的MySQL数据库中提取文档。但是,现在,当我尝试进行完全导入时,我在日志中得到了这个:SEVERE:FullImportfailedorg.apache.solr.handler.dataimport.DataImportHandlerException:Couldnotloaddriver:com.mysql.jdbc.DriverProcessing

大数据面试高频题目 - 深入解析 Hadoop:探索强大的HDFS存储系统

在大数据面试中,深刻理解Hadoop是取得成功的关键之一。以下是一些关于Hadoop的HDFS存储系统的高频面试题目以及解答思路和经验分享:一、HDFS读流程发起下载请求:客户端创建分布式文件系统,向NameNode请求下载 user/warehouse/ss.avi 文件;获取文件元数据:NameNode返回目标文件的元数据,包括文件块的位置;请求读取第一个块:客户端向 data1 请求读取第一个块;数据传输:data1 通过 FSDataInputStream 将数据返回给客户端;继续请求读取:重复步骤3-4直到所有文件块都读取完毕,然后关闭 FSDataInputStream。二、HDF