草庐IT

hbase-unsecure

全部标签

java - hbase dns 连接错误或可能是 ipv6

我一直在尝试运行涉及使用Hbase作为源和接收器的MapReduce作业。但是,当我尝试使用HBase客户端包0.92.1时,一切似乎都正常。但是当我使用0.94.2及以上版本时,它给出了以下DNS相关错误。我想使用较新的HBase客户端包,希望有人能告诉我哪里出了问题。谢谢我已经禁用了IPv6并且根本没有使用它。我不确定为什么它无法解析DNS客户端的字符串。Exceptioninthread"main"java.lang.NumberFormatException:Forinputstring:"4f8:0:a102::add:9999"atjava.lang.NumberForma

hadoop hbase cdh4 作业启动失败,出现权限错误

在CDH4生态系统中,我正在尝试将mapreduce作业输出到hbase表。由于某种原因,它在配置设置的addDependencyJars调用期间失败。据我所知,hbase配置没有选择hadoop配置(请参阅作业输出中的警告)。我提供了hdfs-site.xml、作业配置、带堆栈跟踪的作业输出和文件权限。任何有关如何进一步调试的帮助或见解将不胜感激。hdfs-site.xmldfs.permissions.enabledfalsedfs.permissions.superusergrouphadoopdfs.namenode.name.dir/var/hadoop/namenodedf

hadoop - 如何使用Pig在hbase中加载数据

我想通过pig加载数据并将其处理到HBase中。我已将文本文件加载到HDFS。然后我对pig使用了以下命令。A=LOAD'/tmp/hive-Vijay.Shinde/file.txt'USINGPigStorage(',')as(strdata1:chararray,strdata2:int);然后我用了,STOREAINTO'mydata'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('mycf:strdata2');mydata是HBase中的表。它给出错误:未处理的内部错误 最佳答案

linux - 如何在 HBase 上创建命名空间

我已经在Linux平台上手动和使用Cloudera安装了HBase。我可以在其上创建表,但我在创建namespace时,它在两个安装上都出现了这样的错误。hbase(main):004:0>create_namespace'my_ns'NoMethodError:undefinedmethod`create_namespace'for#Hbase版本0.94.12请帮我解决这个问题。谢谢, 最佳答案 命名空间在0.94中不可用,我相信。命名空间方面的主要工作尚未完成。参见https://issues.apache.org/jira/

hadoop - 使用 pig 更新 Hbase 表

我知道可以使用Put更新HBase中一行的不同列。我正在使用Pig+HBase和HBaseStorage。我能够在HBase中存储和加载,而不会出现表中不存在键的Pig表达式的任何问题。但是,当我开始尝试使用存在键的HBaseStorage()更新表时,作业失败了。有人可以澄清HBaseStorage是否只能用于存储新记录或更新现有记录中的列。提前致谢。 最佳答案 实际上,您可以使用HBaseStorage来更新现有记录中的列。如果您向我们提供错误消息以获取更多详细信息。 关于hadoo

hadoop - 将大量 reducer 输出写入 HBase

我有一个HadoopMapReduce作业,其输出是一个row-id以及对该row-id的Put/Delete操作。由于问题的性质,输出量相当大。我们尝试了几种方法将这些数据取回HBase,但都失败了...表格reducer这是减慢速度的方式,因为它似乎必须对每一行进行一次完整的往返。由于我们的reducer步骤的键排序方式,row-id不太可能与reducer在同一节点上。完成批量加载这似乎需要很长时间(永远不会完成)并且没有真正说明原因。IO和CPU使用率都非常低。我是否漏掉了一些明显的东西? 最佳答案 我从你对自己的回答中看到

hadoop - MR reducer 中的输出 HBase 增量

我有一个写入HBase的mapreduce作业。我知道您可以使用TableMapReduceUtil从reducer输出Put和Delete。是否可以发出Increment来增加HBase表中的值,而不是发出Puts和Gets?如果是,怎么做,如果不是,那为什么?我正在使用CDH3publicstaticclassTheReducerextendsTableReducer{publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{///....DOSOMES

hadoop - HBase 区域服务器与数据节点的数量

在与HadoopHDFS一起配置HBase集群时,为每个HDFS数据节点部署一个区域服务器是一个不错的选择,还是区域服务器和数据节点之间的比例不应为1:1? 最佳答案 您可以使用任何您想要的比例,但经验法则是1:1。RS拥有的区域越少越好,RS越多意味着每个服务器的区域越少,如果节点发生故障则重新分配的区域越少,这将缩短恢复时间(虽然自0.95以来取得了很大进展:http://hortonworks.com/blog/introduction-to-hbase-mean-time-to-recover-mttr/)

hadoop - 如何检查 Hbase 区域服务器是否已启动或已关闭

是否可以在我们的程序中通过Java代码在Storm向HBase写入一些数据的同时检查HBaseregionserver是up还是down.... 最佳答案 您可以在Java代码中使用ping:)更多信息请访问HowtopingviaJAVA 关于hadoop-如何检查Hbase区域服务器是否已启动或已关闭,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/30160879/

hadoop - Hbase 中的区域拆分

一个区域服务器可以服务多少个区域?基本上我得到了一个hadoop工作,它在hbase中进行批量加载,但查看hbasemasterUI,我可以看到整个数据流量正在转移到单个区域服务器。因为单个区域服务器正在重载,而其他服务器是理想的。我想跨区域服务器分布这些区域以保持集群平衡。我不太确定,但我假设应该有一些配置来定义每个区域服务器的区域数量。如果我在这里错了,请纠正我。目前我正在为我的hbase表使用默认的自动拆分策略。请告诉我如何确定这个或任何其他处理区域分布的方法?谢谢 最佳答案 我假设您创建了一个拆分表,然后它会根据您的数据大小