hadoop - HBase伪分布式还是全分布式？

coder 2024-01-07 原文

我在开发环境中有一个 linux(ubuntu) 服务器，我也计划在生产环境中使用一个服务器。

我有从 Nutch 2.2.1 生成的爬网数据，我想将其存储在 HBase 0.90.6 中。因为，我不打算使用多台机器，(我只有一台服务器)在我的情况下，哪种 HBase 模式最适合生产环境 - 伪还是完全分布式？

最佳答案

伪分布式模式会更好，因为在独立模式下使用本地 FS。这意味着您无法利用 HDFS+MR 组合提供的并行性。

关于hadoop - HBase伪分布式还是全分布式？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19199089/

有关hadoop - HBase伪分布式还是全分布式？的更多相关文章

ruby - 分布式事务和队列，ruby，erlang，scala - 2
我有一个涉及多台机器、消息队列和事务的问题。因此，例如用户点击网页，点击将消息发送到另一台机器，该机器将付款添加到用户的帐户。每秒可能有数千次点击。事务的所有方面都应该是容错的。我以前从未遇到过这样的事情，但一些阅读表明这是一个众所周知的问题。所以我的问题。我假设安全的方法是使用两阶段提交，但协议(protocol)是阻塞的，所以我不会获得所需的性能，我是否正确？我通常写Ruby，但似乎Redis之类的数据库和Rescue、RabbitMQ等消息队列系统对我的帮助不大——即使我实现某种两阶段提交，如果Redis崩溃，数据也会丢失，因为它本质上只是内存。所有这些让我开始关注erlang和
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
HBase Region 简介和建议数量&大小 - 2
Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。region中存储这用户的真实数据，而为了管理这些数据，HBase使用了RegionSever来管理region。Region的结构hbaseregion的大小设置默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Region会自动进行拆分。刚拆分时，两个子Region都位于当前的RegionServer，但处于负载均衡的考虑，HMaster有可能会将某个Region转移给其他的RegionServer。RegionSplit时机：当1个region中的某个Store下所有StoreFile
ruby-on-rails - Ruby 流量控制 : throw an exception, 返回 nil 还是让它失败？ - 2
我在思考流量控制的最佳实践。我应该走哪条路？1)不要检查任何东西并让程序失败(更清晰的代码，自然的错误消息):defself.fetch(feed_id)feed=Feed.find(feed_id)feed.fetchend2)通过返回nil静默失败(但是，“CleanCode”说，你永远不应该返回null):defself.fetch(feed_id)returnunlessfeed_idfeed=Feed.find(feed_id)returnunlessfeedfeed.fetchend3)抛出异常(因为不按id查找feed是异常的):defself.fetch(feed_id
ruby - 使用哪个，eruby 还是 erb？ - 2
eruby和erb有什么区别？哪些考虑因素会促使我选择其中之一？我的应用程序正在为网络设备(路由器、负载平衡器、防火墙等)生成配置文件。我的计划是对配置文件进行模板化，在源文件中使用嵌入式ruby(通过eruby或erb)来执行诸如迭代生成路由器的所有接口(interface)配置block之类的操作(这些block都非常相似，仅在标签上有所不同和IP地址)。例如，我可能有这样一个配置模板文件:hostnamesample-routerlogging10.5.16.26当通过嵌入式ruby解释器(erb或eruby)运行时，会产生以下输出:hostnamesample-rout
ruby-on-rails - Ruby on Rails - 参数是方法还是散列？ - 2
所以，我正在尝试RubyonRails指南的入门部分here.我不明白line在本教程中。引用它:Theparamsmethodistheobjectwhichrepresentstheparameters(orfields)cominginfromtheform.我以前确实有一些Rails方面的经验，而且我一直假设params是一个散列。但这里他们称之为方法，它是一个对象。params是方法还是哈希？还有，在ruby中，方法也是对象吗？最佳答案 params是一个返回ActionController::Parameters对象的
适用于Web开发的Python还是Ruby？ - 2
Asitcurrentlystands,thisquestionisnotagoodfitforourQ&Aformat.Weexpectanswerstobesupportedbyfacts,references,orexpertise,butthisquestionwilllikelysolicitdebate,arguments,polling,orextendeddiscussion.Ifyoufeelthatthisquestioncanbeimprovedandpossiblyreopened,visitthehelpcenter提供指导。11年前关闭。我是一位精通HTML
Ruby 命名空间与类还是模块？ - 2
考虑Ruby类Foo::Bar。惯例是将“Foo”命名空间作为一个模块，但它也可以很容易地作为一个类:moduleFoo;classBar;end;end对比:classFoo;classBar;end;end在第二种情况下，Bar不是Foo的内部类，它只是在Foo的单例上定义的另一个常量。在这两种情况下，父类(superclass)都是Object并且它们只包含Kernel模块。它们的祖先链是相同的。因此，除了您可以根据其类使用Foo进行的操作(如果是类则实例化，如果是模块则扩展/包含)，命名空间的性质是否对有任何影响酒吧？是否有令人信服的理由选择其中一个名称间距而不是另一个？我看到
ruby - 停止分布式 Ruby 服务 - 2
我有一个启动DRb服务的脚本，然后生成处理程序对象并通过DRb.thread.join等待。我希望脚本一直运行直到被明确杀死，所以我添加了trap"INT"doDRb.stop_serviceend在Ruby1.8下成功停止DRb服务并退出，但在1.9下似乎死锁(在OSX10.6.7上)。对该进程进行采样显示在semaphore_wait_signal_trap中有几个线程在旋转。我假设我在调用stop_service时做错了什么，但我不确定是什么。谁能给我任何关于如何正确处理它的指示？最佳答案好的，我想我已经找到了解决方案。如
ruby-on-rails - 在 Rails 4 中组织外部 API 调用 - 模块还是类？ - 2
我正在创建一个Rails应用程序，它将使用相当多的外部API，例如SalesForce、FolderGrid(如Dropbox)等，它们都会同步到我的数据库。我从来没有使用过外部api调用，所以我创建了一些基本的Ruby脚本和分散的方法来测试对这些资源的调用。现在我想用我的完整Rails应用程序来实现它们。到目前为止，我首先在我的/lib文件夹中创建一个目录来保存api调用模块/类。/lib/apis/foldergrid.rb现在我不确定组织代码的最佳方法是什么。在我的独立Ruby脚本中，我有用于身份验证、创建文件夹、审核文件、下载文件等的方法。模块中应该包含什么？我什至需要一个模块

hadoop - HBase伪分布式还是全分布式？

有关hadoop - HBase伪分布式还是全分布式？的更多相关文章

随机推荐