草庐IT

HBASE_CLASSPATH

全部标签

performance - 平衡 HDFS -> HBase mapreduce 作业的想法

对于客户,我一直在研究在AWSEC2上运行Cloudera风格的hadoop集群的短期可行性。在大多数情况下,结果是预期的,逻辑卷的性能大多不可靠,也就是说尽我所能让集群在这种情况下运行得相当好。昨晚我对他们的导入程序脚本进行了全面测试,以从指定的HDFS路径中提取数据并将其推送到Hbase。他们的数据有些不同寻常,因为记录小于1KB,并且被压缩到9MB的gzipblock中。总共有大约50万条文本记录从gzip中提取出来,经过完整性检查,然后推送到reducer阶段。作业在环境的预期范围内运行(溢出记录的数量是我预料到的)但是一个非常奇怪的问题是当作业运行时,它使用8个reducer

hadoop - 使用 HBase 进行分析

我几乎是HBase的新手。我想采用基于MySQL的当前站点跟踪并将其放入HBase,因为MySQL根本无法再扩展。我完全迷失了第一步......我需要跟踪用户的不同操作,并且需要能够按某些方面(日期、他们来自的国家/地区、他们执行操作时使用的产品等)汇总它们我目前存储它的方式是,我有一个包含所有这些方面(国家/地区、日期、产品...)的复合PK的表格,其余字段是操作的计数器。当一个Action被执行时,我将它插入到表中,将Action的列递增一个(ONDUPLICATEKEYUPDATE...)。*date|*country|*product|visited|liked|put_to_

graph - 将多个顺序 HBase 查询的结果传递给 Mapreduce 作业

我有一个HBase数据库,它存储有向图的邻接表,每个方向的边存储在一对列族中,其中每一行表示一个顶点。我正在编写一个mapreduce作业,它将所有节点作为其输入,这些节点也具有从相同顶点指向的边,因为具有指向其他顶点(指定为查询的主题)的边。这有点难以解释,但在下图中,当查询顶点“A”时,作为输入的节点集将是{A,B,C},因为它们都具有来自顶点的边'1':为了在HBase中执行此查询,我首先在产生{1}的反向边列族中查找边为“A”的顶点,然后,对于该集合中的每个元素,从该元素中查找边为“A”的顶点该集合的前向边缘列族。这应该会产生一组键值对:{1:{A,B,C}}。现在,我想获取这

java - 用于 Web 分析的 Hadoop-Hive-HBase 建议

我工作的团队很幸运,管理层认识到提高我们技能和学习新技术的必要性。因此,每当我们在主要项目之间有一点停工时间时,我们都被鼓励利用这段时间来扩展我们的思维并学习新的东西。我们经常作为一个团队来处理一个大型研究项目,这样每个人都可以从知识中受益。例如,我们构建了一个符合规范的Kerberos身份验证服务器,以熟悉协议(protocol)的来龙去脉。我们编写了自己的网络服务器,以了解网络应用程序的高效设计策略。最近,我们对Map-Reduce非常好奇,特别是Hadoop和各种支持组件(HBase、HDFS、Pig、Hive等)。为了更多地了解它,我们想编写一个网络分析服务。它将使用Javas

hadoop - 当 hive 由 hbase 支持时,是否支持所有 hive 查询?

我主要对GROUPBY、HAVING、AVG、PERCENTILE等聚合函数感兴趣。如果没有,是否有其他替代方案? 最佳答案 https://cwiki.apache.org/Hive/languagemanual-udf.html是Hive中可用的UDF和函数的最终列表。 关于hadoop-当hive由hbase支持时,是否支持所有hive查询?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/qu

hadoop - 如何在hbase中查找行键中的列数

如何在hbase中查找行键中的列数(因为一行可以有很多列) 最佳答案 我认为没有直接的方法可以做到这一点,因为每一行可以有不同数量的列,并且它们可能分布在多个文件中。如果您不想将整行带到客户端执行计数,您可以编写一个端点协处理器(如果您愿意,可以使用HBase版本的存储过程)在区域服务器端执行计算,并且只返回结果。您可以阅读一些有关协处理器的信息here 关于hadoop-如何在hbase中查找行键中的列数,我们在StackOverflow上找到一个类似的问题:

filter - 如何在 HBase 中获取最大行键?

如何获取HBase表中的最大rowkey?我有一个包含两行的表格:TT-0001column=cf:col-1,timestamp=1341218075789,value=abcTT-0002column=cf:col-1,timestamp=1341218075789,value=abc我想获取row2(rowkey的最大值)。我如何在Hbase中执行此操作? 最佳答案 使用你选择的行键,你可以简单地返回你的表的“最后”行并打印出行键(因为我假设你只是增加“TT-”后面的数字)。您还可以使用KeyOnlyFilter这将发出值,您

hadoop - 尝试在 5 节点 hadoop 集群中安装 Hbase 时遇到一些问题,

我在尝试在5节点hadoop集群中安装Hbase时遇到一些问题,Hmaster和Hregionservers没有运行,只有Hquorumpeerdeamon在所有5个节点上运行。我正在使用hadoop-0.20.2和hbase-0.90.4,hadoop工作正常。这是我的hbase-site.xml:-hbase.zookeeper.property.clientPort2222PropertyfromZooKeeper'sconfigzoo.cfg.Theportatwhichtheclientswillconnect.hbase.rootdirhdfs://master:54310

mysql - 从mysql导出数据到hbase

我有一个由MySQL支持存储的应用程序。目前数据量级为几TB,并且还在不断增加。我想使用HBase/Mongo/CAssandra进行存储。如何将MySQL数据导出到HBase?目前我没有使用任何Hadoop技术,一旦我弄清楚了这个过程,我就会偷看。谢谢jack 最佳答案 你试过了吗Sqoop?它可以import从MySQL到HBase。 关于mysql-从mysql导出数据到hbase,我们在StackOverflow上找到一个类似的问题: https://

hadoop - HBase 单行事务支持中的行锁定

在HBase中,为了提供单行事务支持,它使用行锁定概念。假设,例如Putp=newPut("/*RowKey*/");该语句将锁定该行。所以,直到我们完成table.put(p)锁不会被释放。所以,如果我开始一个新的看跌期权,即Putp1=newPut("/RowKey");p1put应该不起作用,因为该行已经被锁定,但在HBase0.94中,当我尝试它工作时。关于行锁LinkWhereihadseenaboutRowLock我的理解有什么不对的地方吗。如果不是,单行事务支持如何在行锁定的情况下工作。 最佳答案 HBase的工作方式