草庐IT

HBASE_CLASSPATH

全部标签

hadoop - Hbase中,ResultScanner和initTableMapperJob扫描有什么区别

我希望有人能告诉我这两个API调用之间的区别。我在他们两个之间得到奇怪的结果。这发生在hbase-client/hbase-server版本1.0.1和1.2.0-cdh5.7.2上。首先,我的行键采用hash_name_timestamp格式例如100_servername_1234567890。hbase表的TTL为30天,因此超过30天的内容在压缩后应该消失。以下是使用ResultScanner的代码。它不使用MapReduce,因此需要很长时间才能完成。我不能以这种方式处理我的工作,因为它需要太长时间。但是,出于调试目的,我对这种方法没有任何问题。它列出了指定时间范围内的所有k

java - 使用 Hbase 自定义过滤器时出现异常

我写了一个Hbase自定义过滤器扩展FilterBase并转换成JAR。过滤器看起来像这样:publicclassMyFilter1extendsFilterBaseimplementsSerializable{booleanfilterRow=true;Stringsrh;publicMyFilter1(Stringstr){this.srh=str;}@OverridepublicReturnCodefilterKeyValue(Cellc)throwsIOException{Stringstr=Bytes.toString(c.getValue());if(str.contain

hadoop - Hive 与 Hbase 集成 null

大家。我尝试使用hbase集成但遇到了问题。hive的时间戳字段查询为空。我的sql是:CREATEEXTERNALTABLEhbase_data(nidstring,dillegaldatetimestamp,coffensestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,0:DILLEGALTIMESTAMP,0:COFFENSE")TBLPROPERTIES("hbase.table.name"="I

hadoop - 将多个互连的 csv 文件上传到 HBase 的方法

我是HBase的新手,仍然不确定在我的案例中我将使用Hadoop生态系统的哪个组件以及稍后如何分析我的数据,所以只是探索选项。我有一个Excel表,其中包含关于所有客户的摘要,但有≈400列:CustomerIDCountryAgeE-mail251648Russia27boo@yahoo.com487985USA30foo@yahoo.com478945England15lala@yahoo.com789456USA25nana@yahoo.com此外,我还为每个客户分别创建了.xls文件,其中包含有关他的信息(一个客户=一个.xls文件),每个文件中的列数和列名都相同。这些文件中的

hadoop - 在 Hbase 中,尽量减少行和列的大小,为什么?

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion查看:http://hbase.apache.org/1.2/book.html#rowkey.design我无法理解36.3。尽量减少行和列的大小,为什么?这一章对我来说很难理解。有人可以帮助我吗?提前致谢。

hadoop - 具有 Hbase 表输入格式的 Flink DataSet api - 多次读取行

我正在使用Flink1.3.2和hbaseTableInputFormat来自flink-connectors(flink-hbase_2.11),使用DataSetAPI。我有一个HBase表,其中行键的结构如下:|RowKey|data||0-someuniqid|data||0-someuniqid|data||2-someuniqid|data||2-someuniqid|data||4-someuniqid|data||5-someuniqid|data||5-someuniqid|data||7-someuniqid|data||8-someuniqid|data|表的前缀

hadoop - spark如何写入HBASE

我有一个Spark作业,它读取一些时间序列数据并使用HBASE客户端API将其推送到HBASE。我正在执行这个Spark作业在10节点集群上。首先说,当spark启动时,它选择machine1、machine2、machine3作为它的执行者。现在,当作业向HBASE插入一行时。以下是我对其功能的理解。基于行键,将选择一个特定区域(来自META),该行将被推送到该RegionServer的memstore和WAL,一旦memestore已满,它将被刷新到磁盘。现在如果假设一个特定的行正在由machine2上的执行程序处理,而处理要向其进行放置的区域的区域服务器在machine6上。数据

java.lang.NoClassDefFoundError : Could not initialize class org. apache.hadoop.hbase.shaded.protobuf.ProtobufUtil$ClassLoaderHolder 错误

我尝试根据theofficialdocumentation安装和运行OpenTSDB我使用sudo./build/tsdbtsd--port=4242--config=/path/to/opentsdb/src/opentsdb.conf--staticroot=build/staticroot--cachedir="$tsdtmp"启动OpenTSDB一切似乎都运行良好,但是当我尝试使用./tsdbmkmetricmysql.bytes_receivedmysql.bytes_sent创建指标时,出现如下所示的错误。任何想法出了什么问题,我该如何解决?如果需要任何其他信息,请告诉我。

hadoop - 使用sqoop导入数据到hbase

当我想使用sqoop将数据导入到hive时,我可以指定--hive-homesqoop将调用安装在执行脚本的机器上的指定配置单元副本。但是hbase呢?sqoop如何知道我要将数据导入到哪个hbase实例/数据库? 最佳答案 Maybethedocumentationhelps?Byspecifying--hbase-table,youinstructSqooptoimporttoatableinHBaseratherthanadirectoryinHDFS我看到的每个示例都只显示该选项以及列族等等,所以我假设它取决于可能属于sqo

hadoop - 无法为输出方法 'output_xml.properties' 加载属性文件 'xml'(检查 CLASSPATH)

我正在尝试使用Apacheoozie创建一个sqoop工作流,但是当我执行脚本时出现以下错误:Causedby:com.sun.org.apache.xml.internal.serializer.utils.WrappedRuntimeException:Couldnotloadtheproperyfile'output_xml.properties'foroutputmethod'xml'(checkCLASSPATH)当我检查日志时,它说错误是由以下原因引起的:Causedby:com.sun.org.apache.xml.internal.serializer.utils.Wr