hadoop - HBase:创建多个表还是包含多个列的单个表？

coder 2024-01-05 原文

什么时候创建多个表而不是创建具有大量列的单个表是有意义的。我知道表通常只有几个列族(1-2)，每个列族可以支持1000多个列。

当HBase在单个表中可能包含大量列的情况下表现良好时，何时创建单独的表才有意义？

最佳答案

在回答问题本身之前，让我首先说明一些起作用的主要因素。我将假定使用的文件系统是HDFS。

一个表被划分为称为区域的键空间的非重叠分区。

键范围->区域映射存储在称为meta的特殊单个区域表中。

一个区域的一个HBase列族中的数据存储在单个HDFS目录中。它通常是几个文件，但是出于所有目的和目的，我们可以假定某个列族的区域数据存储在HDFS上的一个单个文件中，该文件称为StoreFile / HFile。

StoreFile本质上是一个包含KeyValues的排序文件。 KeyValue逻辑上表示以下顺序:(RowLength，RowKey，FamilyLength，FamilyName，Qualifier，Timestamp，Type)。例如，如果您的区域中只有两个KV，而CF的键是相同的，但值在两列中，则这就是StoreFile的样子(除了它实际上是字节编码的，而且像length这样的元数据也是如此)如上文所述存储):

Key1:Family1:Qualifier1:Timestamp1:Value1:Put

Key1:Family1:Qualifier2:Timestamp2:Value2:Put

StoreFile分为多个块(默认为64KB)，每个数据块中包含的键范围由多级索引建立索引。可以使用索引+二进制搜索在单个块内进行随机查找。但是，在将开始位置定位在扫描所需的第一个块中之后，扫描必须依次通过特定的块。

HBase是基于LSM树的数据库，这意味着它具有内存日志(称为Memstore)，该日志会定期刷新到创建StoreFiles的文件系统中。对于特定列族，单个区域内的所有列共享Memstore。

在从HBase读取数据/向HBase写入数据时涉及多个优化，但是以上给出的信息在概念上是正确的。鉴于以上陈述，与其他方法相比，具有多个列和多个表的优点如下:
具有多个列的单个表

由于使用了前缀编码，因此磁盘压缩效果更好，因为密钥的所有数据都存储在一起，而不是存储在表中的多个文件中。由于较小的数据大小，这也导致磁盘 Activity 减少。

元数据表上的负载较小，因为区域总数将较小。仅一个表将具有N个区域，而不是M个表将具有N * M个区域。这意味着更快的区域查找和对元表的低争用，这是大型集群所关心的。

当您需要为单个行键读取几列时，读取速度更快且IO放大较低(导致较少的磁盘 Activity )。

当为单个行键写入多列时，您将获得行级事务，批处理和其他性能优化的优势。

何时使用:

如果要跨多个列执行行级事务，则必须将它们放在单个表中。

即使您不需要行级事务，但是您经常向同一行键的多列写入或查询。一个好的经验法则是，如果平均而言，您的列中有超过20％的列具有单个行的值，则应尝试将它们放到一个表中。

列过多时。

多个表

如果每个表主要只关注一列，则可以更快地扫描每个表，并降低IO放大率(记住，在扫描中进行顺序查找将不必要地读取它们不需要的列)。

逻辑上的数据分隔良好，尤其是当您不需要跨列共享行键时。对于一种类型的行键有一个表。

何时使用:

数据之间存在明确的逻辑分离时。例如，如果行键架构在不同的列集之间有所不同，则将这些列集放在单独的表中。

当只有一小部分列具有行键的值时(查看下面的方法更好)。

您想为不同的列集使用不同的存储配置。例如。 TTL，压缩率，阻止的文件计数，内存大小等(在此用例中查找下面的一种更好的方法)。

另一种排序方式:单个表中有多个CF
从上面可以看到，这两种方法都有优点。如果您对多个列具有相同的行键结构(因此，您希望共享行键以提高存储效率或需要跨列进行事务处理)，但是数据非常稀疏(这意味着您只写/读)，那么选择将变得非常困难行键的一小部分列)。
在这种情况下，您似乎需要两全其美。这就是列族的用处。如果您可以将列集划分为逻辑子集，而这些子集通常只访问/读取/写入单个子集，或者您需要每个子集的存储级别配置(如TTL，存储类，编写繁重的压缩计划)等)，则可以将每个子集设为一个列族。
由于特定列族的数据存储在单个文件(文件集)中，因此在读取列子集的同时不会降低扫描速度，您可以获得更好的局部性。
但是，有一个陷阱:
不要尝试不必要地使用列族。与它们相关联的是一个成本，由于区域级别的写锁定，监视等在HBase中的工作方式，HBase在10个以上的CF中表现不佳。仅当跨CF的列之间具有逻辑关系但通常不跨CF执行操作或需要为不同的CF具有不同的存储配置时，才使用CF。
如果您在所有列之间共享行键架构，则最好仅使用一个包含所有列的CF，除非您的数据集非常稀疏，在这种情况下，您可能需要基于上述几点的不同CF或不同表。

关于hadoop - HBase:创建多个表还是包含多个列的单个表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51326717/

hadoop HBase li 的 br database-design

有关hadoop - HBase:创建多个表还是包含多个列的单个表？的更多相关文章

ruby - 如何在 Ruby 中顺序创建 PI - 2
出于纯粹的兴趣，我很好奇如何按顺序创建PI，而不是在过程结果之后生成数字，而是让数字在过程本身生成时显示。如果是这种情况，那么数字可以自行产生，我可以对以前看到的数字实现垃圾收集，从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法，类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2
我有多个ActiveRecord子类Item的实例数组，我需要根据最早的事件循环打印。在这种情况下，我需要打印付款和维护日期，如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询，用于查找maintenance和payment项目(非排他性查询)，并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
ruby - 使用 Vim Rails，您可以创建一个新的迁移文件并一次性打开它吗？ - 2
使用带有Rails插件的vim，您可以创建一个迁移文件，然后一次性打开该文件吗？textmate也可以这样吗？最佳答案你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件，这正是您想要的。我不能代表textmate。关于ruby-使用VimRails，您可以创建一个新的迁移文件并一次性打开它吗？，我们在StackOverflow上找到一个类似的问题： https://sta
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2
为了将Cucumber用于命令行脚本，我按照提供的说明安装了arubagem。它在我的Gemfile中，我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作，我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了，但失败的原因是错误的:@announceScenario:Testingcucumber/ar
ruby-on-rails - 无法使用 Rails 3.2 创建插件？ - 2
我对最新版本的Rails有疑问。我创建了一个新应用程序(railsnewMyProject)，但我没有脚本/生成，只有脚本/rails，当我输入ruby./script/railsgeneratepluginmy_plugin"Couldnotfindgeneratorplugin.".你知道如何生成插件模板吗？没有这个命令可以创建插件吗？PS:我正在使用Rails3.2.1和ruby1.8.7[universal-darwin11.0] 最佳答案随着Rails3.2.0的发布，插件生成器已经被移除。查看变更日志here.现在
ruby - 如何使用 RSpec::Core::RakeTask 创建 RSpec Rake 任务？ - 2
如何使用RSpec::Core::RakeTask初始化RSpecRake任务？require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录；它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake
ruby - 多个属性的 update_column 方法 - 2
我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法，但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案您可以使用update_columns(attr1:val1,attr2:val2

hadoop - HBase:创建多个表还是包含多个列的单个表？

有关hadoop - HBase:创建多个表还是包含多个列的单个表？的更多相关文章

随机推荐