草庐IT

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗?我应该使用 Nutch 吗? ..Cloudera?

coder 2024-01-06 原文

我可以使用 MapReduce 框架创建索引并以某种方式将其添加到分布式 Solr 中吗?

我有大量信息(日志文件和文档)将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要通过我们复制的 Solr 安装进行解析、索引和最终搜索。

这是我提出的架构:

  • 使用 MapReduce 框架(Cloudera、Hadoop、Nutch,甚至 DryadLinq)为索引准备这些文档
  • 将这些文档索引为 Lucene.NET/Lucene (java) 兼容的文件格式
  • 将该文件部署到我所有的 Solr 实例
  • 激活那个复制的索引

如果可以的话,我需要选择一个 MapReduce 框架。由于 Cloudera 是供应商支持的,并且有大量补丁未包含在 Hadoop 安装中,我认为它可能值得一看。

一旦我选择了 MatpReduce 框架,我需要标记文档(PDF、DOCx、DOC、OLE 等...),为它们编制索引,将索引复制到我的 Solr 实例,并以某种方式“激活”它们以便它们在运行的实例中是可搜索的。我相信这种方法比通过 REST 接口(interface)向 Solr 提交文档更好。

我将 .NET 纳入其中的原因是因为我们主要是一家 .NET 商店。我们将拥有的唯一 Unix/Java 是 Solr,它有一个通过 Solrnet 利用 REST 接口(interface)的前端。

Based on your experience, how does this architecture look? Do you see any issues/problems? What advice can you give?

应该怎么做才能失去分面搜索?阅读 Nutch 文档后,我相信它说它不做分面,但我可能没有足够的软件背景来理解它在说什么。

最佳答案

一般来说,您所描述的几乎就是 Nutch 的工作原理。 Nutch 是一个基于 Hadoop 核心的爬虫、索引、索引合并和查询应答工具包。

您不应该混合使用 Cloudera、Hadoop、Nutch 和 Lucene。您很可能最终会使用所有这些:

  • Nutch 是索引/应答(如 Solr)机制的名称。
  • Nutch 本身使用 Hadoop 集群(大量使用它自己的分布式文件系统 HDFS)运行
  • Nutch 使用 Lucene 格式的索引
  • Nutch 包含一个查询应答前端,您可以使用它,或者您可以附加一个 Solr 前端并从那里使用 Lucene 索引。
  • 最后,Cloudera Hadoop Distribution(或 CDH)只是一个应用了几十个补丁的 Hadoop 发行版,以使其更加稳定并从开发分支向后移植一些有用的功能。是的,您很可能想要使用它,除非您有理由不这样做(例如,如果您想要一个前沿的 Hadoop 0.22 主干)。

通常,如果您只是在研究现成的爬网/搜索引擎解决方案,那么 Nutch 是一个不错的选择。 Nutch 已经包含了很多插件来解析和索引各种疯狂类型的文档,包括 MS Word 文档、PDF 等。

我个人认为在这里使用 .NET 技术没有多大意义,但如果您对此感到满意,您可以在 .NET 中做前端。然而,对于以 Windows 为中心的团队来说,使用 Unix 技术可能会感到相当尴尬,所以如果我管理过这样的项目,我会考虑替代方案,特别是如果你的爬行和索引任务有限(即你不想出于某种目的抓取整个互联网)。

关于solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗?我应该使用 Nutch 吗? ..Cloudera?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4235892/

有关solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗?我应该使用 Nutch 吗? ..Cloudera?的更多相关文章

  1. ruby - 我需要将 Bundler 本身添加到 Gemfile 中吗? - 2

    当我使用Bundler时,是否需要在我的Gemfile中将其列为依赖项?毕竟,我的代码中有些地方需要它。例如,当我进行Bundler设置时:require"bundler/setup" 最佳答案 没有。您可以尝试,但首先您必须用鞋带将自己抬离地面。 关于ruby-我需要将Bundler本身添加到Gemfile中吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/4758609/

  2. ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2

    为了将Cucumber用于命令行脚本,我按照提供的说明安装了arubagem。它在我的Gemfile中,我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作,我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了,但失败的原因是错误的:@announceScenario:Testingcucumber/ar

  3. ruby - 将 Bootstrap Less 添加到 Sinatra - 2

    我有一个ModularSinatra应用程序,我正在尝试将Bootstrap添加到应用程序中。get'/bootstrap/application.css'doless:"bootstrap/bootstrap"end我在views/bootstrap中有所有less文件,包括bootstrap.less。我收到这个错误:Less::ParseErrorat/bootstrap/application.css'reset.less'wasn'tfound.Bootstrap.less的第一行是://CSSReset@import"reset.less";我尝试了所有不同的路径格式,但它

  4. ruby - 续集在添加关联时访问many_to_many连接表 - 2

    我正在使用Sequel构建一个愿望list系统。我有一个wishlists和itemstable和一个items_wishlists连接表(该名称是续集选择的名称)。items_wishlists表还有一个用于facebookid的额外列(因此我可以存储opengraph操作),这是一个NOTNULL列。我还有Wishlist和Item具有续集many_to_many关联的模型已建立。Wishlist类也有:selectmany_to_many关联的选项设置为select:[:items.*,:items_wishlists__facebook_action_id].有没有一种方法可以

  5. ruby - 可以通过多少种方法将方法添加到 ruby​​ 对象? - 2

    当谈到运行时自省(introspection)和动态代码生成时,我认为ruby​​没有任何竞争对手,可能除了一些lisp方言。前几天,我正在做一些代码练习来探索ruby​​的动态功能,我开始想知道如何向现有对象添加方法。以下是我能想到的3种方法:obj=Object.new#addamethoddirectlydefobj.new_method...end#addamethodindirectlywiththesingletonclassclass这只是冰山一角,因为我还没有探索instance_eval、module_eval和define_method的各种组合。是否有在线/离线资

  6. ruby - 如何在 Ruby 中向现有方法定义添加语句 - 2

    我注意到类定义,如果我打开classMyClass,并在不覆盖的情况下添加一些东西我仍然得到了之前定义的原始方法。添加的新语句扩充了现有语句。但是对于方法定义,我仍然想要与类定义相同的行为,但是当我打开defmy_method时似乎,def中的现有语句和end被覆盖了,我需要重写一遍。那么有什么方法可以使方法定义的行为与定义相同,类似于super,但不一定是子类? 最佳答案 我想您正在寻找alias_method:classAalias_method:old_func,:funcdeffuncold_func#similartoca

  7. ruby-on-rails - 添加回形针新样式不影响旧上传的图像 - 2

    我有带有Logo图像的公司模型has_attached_file:logo我用他们的Logo创建了许多公司。现在,我需要添加新样式has_attached_file:logo,:styles=>{:small=>"30x15>",:medium=>"155x85>"}我是否应该重新上传所有旧数据以重新生成新样式?我不这么认为……或者有什么rake任务可以重新生成样式吗? 最佳答案 参见Thumbnail-Generation.如果rake任务不适合你,你应该能够在控制台中使用一个片段来调用重新处理!关于相关公司

  8. java - 我的模型类或其他类中应该有逻辑吗 - 2

    我只想对我一直在思考的这个问题有其他意见,例如我有classuser_controller和classuserclassUserattr_accessor:name,:usernameendclassUserController//dosomethingaboutanythingaboutusersend问题是我的User类中是否应该有逻辑user=User.newuser.do_something(user1)oritshouldbeuser_controller=UserController.newuser_controller.do_something(user1,user2)我

  9. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  10. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

随机推荐