草庐IT

hadoop - HBase:创建多个表还是包含多个列的单个表?

coder 2024-01-05 原文

什么时候创建多个表而不是创建具有大量列的单个表是有意义的。我知道表通常只有几个列族(1-2),每个列族可以支持1000多个列。

当HBase在单个表中可能包含大量列的情况下表现良好时,何时创建单独的表才有意义?

最佳答案

在回答问题本身之前,让我首先说明一些起作用的主要因素。我将假定使用的文件系统是HDFS。

  • 一个表被划分为称为区域的键空间的非重叠分区。
  • 键范围->区域映射存储在称为meta的特殊单个区域表中。
  • 一个区域的一个HBase列族中的数据存储在单个HDFS目录中。它通常是几个文件,但是出于所有目的和目的,我们可以假定某个列族的区域数据存储在HDFS上的一个单个文件中,该文件称为StoreFile / HFile。
  • StoreFile本质上是一个包含KeyValues的排序文件。 KeyValue逻辑上表示以下顺序:(RowLength,RowKey,FamilyLength,FamilyName,Qualifier,Timestamp,Type)。例如,如果您的区域中只有两个KV,而CF的键是相同的,但值在两列中,则这就是StoreFile的样子(除了它实际上是字节编码的,而且像length这样的元数据也是如此)如上文所述存储):
    Key1:Family1:Qualifier1:Timestamp1:Value1:Put
    
    Key1:Family1:Qualifier2:Timestamp2:Value2:Put
    
  • StoreFile分为多个块(默认为64KB),每个数据块中包含的键范围由多级索引建立索引。可以使用索引+二进制搜索在单个块内进行随机查找。但是,在将开始位置定位在扫描所需的第一个块中之后,扫描必须依次通过特定的块。
  • HBase是基于LSM树的数据库,这意味着它具有内存日志(称为Memstore),该日志会定期刷新到创建StoreFiles的文件系统中。对于特定列族,单个区域内的所有列共享Memstore。

  • 在从HBase读取数据/向HBase写入数据时涉及多个优化,但是以上给出的信息在概念上是正确的。鉴于以上陈述,与其他方法相比,具有多个列和多个表的优点如下:
    具有多个列的单个表
  • 由于使用了前缀编码,因此磁盘压缩效果更好,因为密钥的所有数据都存储在一起,而不是存储在表中的多个文件中。由于较小的数据大小,这也导致磁盘 Activity 减少。
  • 元数据表上的负载较小,因为区域总数将较小。仅一个表将具有N个区域,而不是M个表将具有N * M个区域。这意味着更快的区域查找和对元表的低争用,这是大型集群所关心的。
  • 当您需要为单个行键读取几列时,读取速度更快且IO放大较低(导致较少的磁盘 Activity )。
  • 当为单个行键写入多列时,您将获得行级事务,批处理和其他性能优化的优势。

  • 何时使用:
  • 如果要跨多个列执行行级事务,则必须将它们放在单个表中。
  • 即使您不需要行级事务,但是您经常向同一行键的多列写入或查询。一个好的经验法则是,如果平均而言,您的列中有超过20%的列具有单个行的值,则应尝试将它们放到一个表中。
  • 列过多时。

  • 多个表
  • 如果每个表主要只关注一列,则可以更快地扫描每个表,并降低IO放大率(记住,在扫描中进行顺序查找将不必要地读取它们不需要的列)。
  • 逻辑上的数据分隔良好,尤其是当您不需要跨列共享行键时。对于一种类型的行键有一个表。

  • 何时使用:
  • 数据之间存在明确的逻辑分离时。例如,如果行键架构在不同的列集之间有所不同,则将这些列集放在单独的表中。
  • 当只有一小部分列具有行键的值时(查看下面的方法更好)。
  • 您想为不同的列集使用不同的存储配置。例如。 TTL,压缩率,阻止的文件计数,内存大小等(在此用例中查找下​​面的一种更好的方法)。

  • 另一种排序方式:单个表中有多个CF
    从上面可以看到,这两种方法都有优点。如果您对多个列具有相同的行键结构(因此,您希望共享行键以提高存储效率或需要跨列进行事务处理),但是数据非常稀疏(这意味着您只写/读),那么选择将变得非常困难行键的一小部分列)。
    在这种情况下,您似乎需要两全其美。这就是列族的用处。如果您可以将列集划分为逻辑子集,而这些子集通常只访问/读取/写入单个子集,或者您需要每个子集的存储级别配置(如TTL,存储类,编写繁重的压缩计划)等),则可以将每个子集设为一个列族。
    由于特定列族的数据存储在单个文件(文件集)中,因此在读取列子集的同时不会降低扫描速度,您可以获得更好的局部性。
    但是,有一个陷阱:
    不要尝试不必要地使用列族。与它们相关联的是一个成本,由于区域级别的写锁定,监视等在HBase中的工作方式,HBase在10个以上的CF中表现不佳。仅当跨CF的列之间具有逻辑关系但通常不跨CF执行操作或需要为不同的CF具有不同的存储配置时,才使用CF。
    如果您在所有列之间共享行键架构,则最好仅使用一个包含所有列的CF,除非您的数据集非常稀疏,在这种情况下,您可能需要基于上述几点的不同CF或不同表。

    关于hadoop - HBase:创建多个表还是包含多个列的单个表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51326717/

    有关hadoop - HBase:创建多个表还是包含多个列的单个表?的更多相关文章

    1. ruby - 如何在 Ruby 中顺序创建 PI - 2

      出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

    2. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

      关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

    3. ruby-on-rails - Rails 3 中的多个路由文件 - 2

      Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

    4. ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2

      我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代

    5. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

      使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

    6. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

      我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

    7. ruby - 检查 "command"的输出应该包含 NilClass 的意外崩溃 - 2

      为了将Cucumber用于命令行脚本,我按照提供的说明安装了arubagem。它在我的Gemfile中,我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作,我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了,但失败的原因是错误的:@announceScenario:Testingcucumber/ar

    8. ruby-on-rails - 无法使用 Rails 3.2 创建插件? - 2

      我对最新版本的Rails有疑问。我创建了一个新应用程序(railsnewMyProject),但我没有脚本/生成,只有脚本/rails,当我输入ruby./script/railsgeneratepluginmy_plugin"Couldnotfindgeneratorplugin.".你知道如何生成插件模板吗?没有这个命令可以创建插件吗?PS:我正在使用Rails3.2.1和ruby​​1.8.7[universal-darwin11.0] 最佳答案 随着Rails3.2.0的发布,插件生成器已经被移除。查看变更日志here.现在

    9. ruby - 如何使用 RSpec::Core::RakeTask 创建 RSpec Rake 任务? - 2

      如何使用RSpec::Core::RakeTask初始化RSpecRake任务?require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录;它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake

    10. ruby - 多个属性的 update_column 方法 - 2

      我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法,但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案 您可以使用update_columns(attr1:val1,attr2:val2

    随机推荐