草庐IT

start-hbase

全部标签

hadoop - Hbase Map 和 Reduce 在同一张表上

是否可以在同一个hbase表上进行映射和归约?例如考虑wordcount示例,我想映射列的每一行,减少它并立即在同一行上写入worcount。有可能这样做吗?如果有,性能如何? 最佳答案 我还没有尝试过这个,但我确实看到了陷入无限循环的风险。因此,如果你能做到这一点,那么你必须确保你用作输入的键范围不会与你作为输出产生的键重叠。 关于hadoop-HbaseMap和Reduce在同一张表上,我们在StackOverflow上找到一个类似的问题: https:/

Hadoop + Hbase 兼容性问题

我搜索了很多关于面临的以下问题:java.io.IOException:Callto/10.0.1.37:50070failedonlocalexception:java.io.EOFExceptionatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1139)atorg.apache.hadoop.ipc.Client.call(Client.java:1107)atorg.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:226)....我找到了如下链接:Whatistheme

hadoop - 将数据同步到 HBase/HDFS 并将其用作 MapReduce 作业的输入

我想将数据同步到Hadoop文件系统。此数据旨在用作计划的MapReduce作业的输入。这个例子可能会解释更多:假设我有一个包含一堆词的文档输入流,这些词需要作为MapReduceWordCount作业的输入。因此,对于每个文档,所有的单词都应该被解析出来并上传到文件系统。但是,如果同一文档再次从输入流到达,我只希望从文件系统上传(或删除)更改。数据应该如何存储;我应该使用HDFS还是HBase?数据量不是很大,大概几GB。是否可以使用来自HDFS和/或HBase的输入启动计划的MapReduce作业? 最佳答案 我会首先选择最适合

java - hadoop、 Jersey 和 JBoss : application won't start

首先,我对JBoss几乎一无所知。昨天之前从来没有接触过它,仍然不太了解它。但是,我公司的一位客户正在使用它来部署我们的应用程序,而我们的最新更新破坏了他们的配置,所以我正在努力解决它。无论如何,这是版本信息:Hadoop:2.7.2Jersey:2.3JBoss:6.1操作系统:Windows(我怀疑这是特定于操作系统的,那只是我正在处理的环境)我们最近向我们的应用程序添加了一个Hadoop连接器模块,这似乎是导致失败的原因。我已经能够重现这个问题,这里是堆栈跟踪:13:32:39,857ERROR[org.jboss.msc.service.fail](MSCservicethre

java - Hbase Java API TableNotDisabledException

我已经在我的本地系统上配置了Apachehbase0.94.14。我必须通过javaAPI与hbase通信。我编写了简单的代码来在现有的hbase表中添加一个新的列族。Java类代码//Instantiatingconfigurationclass.Configurationconf=HBaseConfiguration.create();//InstantiatingHBaseAdminclass.HBaseAdminadmin=newHBaseAdmin(conf);//InstantiatingcolumnDescriptorclassHColumnDescriptorcolum

hadoop - 多个映射后跟一个使用 Hadoop 和 HBase 的 reduce

我有几个Hbase表。我希望在每个表上运行一个映射任务(每个映射都是一个不同的Mapper类,因为每个表都包含异构数据),然后是一个reduce。如果不明确地将每个映射后的数据减少到临时SequenceFile中,我无法确定这是否可行。如有任何帮助,我们将不胜感激。 最佳答案 您似乎一次只能在一个表上运行MR(请参阅TableMapReduceUtil)。因此,最有可能的是,您最好的选择就是您所怀疑的:将每个表的输出保存到一个临时位置(例如SequenceFile或tmphbase表),然后编写一个最终的MR作业,将该位置作为输入并

hadoop - 运行 Hadoop/bin/start-all.sh 时名称解析暂时失败

我在SUSELinux上运行Hadoop/bin/start-all.sh时遇到“Temporaryfailureinnameresolution”。我搜索了很多网站寻找问题,但找不到有效的答案。期待您的帮助,谢谢!!它部署在一个相同的机器上,所以在主/从文件中只有一行:localhostsolom@linux87:~/hadoop>bin/hadoopnamenode-format11/07/1217:43:10INFOnamenode.NameNode:STARTUP_MSG:/****************************************************

hadoop - 使用配置单元初始化数据库时出现 java.sql.SQLException : Failed to start database 'metastore_db' ERROR,

我在3个集群上安装了Hadoop和Hive。我能够从运行HIVE的集群节点登录到配置单元。root@NODE_3hive]#hiveLogginginitializedusingconfigurationinjar:file:/usr/lib/hive/lib/hive-common-0.10.0-cdh4.2.0.jar!/hive-log4j.propertiesHivehistoryfile=/tmp/root/hive_job_log_root_201304020248_306369127.txthive>showtables;OKTimetaken:1.459secondsh

hadoop - HBase region over region 服务器负载不均衡

我正在运行一个带有两个HBase0.94.7区域服务器的小型集群。我发现区域服务器上的负载请求非常不平衡。从网络用户界面,我得到:Region1:numberOfOnlineRegions=1,usedHeapMB=26,maxHeapMB=3983Region2:numberOfOnlineRegions=22,usedHeapMB=44,maxHeapMB=3983region2作为master服务。我检查了负载平衡器是否打开。我在主日志中找到了一些日志:INFOorg.apache.hadoop.hbase.master.LoadBalancer:Skippingloadbala

java - 使用 Java 中的 Pig/Piglatin 在 HBase 中排序

我在shell中创建了一个HBase表并添加了一些数据。在http://hbase.apache.org/book/dm.sort.html写的是数据集首先按行键排序,然后按列排序。所以我在HBaseShell中尝试了一些东西:hbase(main):013:0>put'mytable','key1','cf:c','val'0row(s)in0.0110secondshbase(main):011:0>put'mytable','key1','cf:d','val'0row(s)in0.0060secondshbase(main):012:0>put'mytable','key1',