草庐IT

hbase-default

全部标签

hadoop - 更详细的在 ubuntu 上安装 hbase 和 hadoop 的链接

我打算在ubuntu上安装hadoop和HBase。当我试图搜索任何好的链接时,我无法找到哪个是完全清晰和更具描述性的。我需要一个详细的链接,从中我可以轻松地设置hsdoop和hbase。谢谢 最佳答案 你没有提到你想在伪分布式模式或多分布式或单节点或多节点中设置这些。无论如何,这里有一些对您有帮助的链接hadoopsinglenodecluster,hadoopmultinodecluster,对于hbase,我认为您应该看到这些链接installHBaseinpseudodistributedmode,hbaseinstalla

hadoop - HBase 中的压缩

我正在使用HBase来存储大量传感器数据。我曾尝试使用一个txt文件来存储我的传感器数据,对于一个20MB的文件,如果我压缩它,它将在磁盘上减少到1MB。我的问题是:HBase本身在存储数据到磁盘时会自动压缩吗?谢谢 最佳答案 您可以使用lzo、gzip或snappy进行hbase压缩。如果您希望将它们用于hbase压缩(包括gzip),则需要自己设置lzo/snappy。通常-lzo比gzip压缩更快,尽管gzip压缩比通常更好。Snappy在压缩方面很稳健,但压缩率通常更差。创建表时-您可以指定压缩/压缩库-如果使用压缩,则hf

hadoop - 使用协处理器 HBase 创建二级索引

我一直在尝试编写自己的协处理器,它使用prePutHook创建二级索引。首先,我一直在尝试让prePut协处理器工作。到目前为止,我可以让协处理器添加到传递给它的put对象。我发现我无法让协处理器写入与传入的put对象正在写入的行分开的行。显然要创建二级索引,我需要弄清楚这一点。下面是我的协处理器的代码,但它不起作用。是的,所有表都存在,'colfam1'也存在。HBase版本:HBase0.92.1-cdh4.1.2来自Cloudera的CDH4有人知道问题出在哪里吗?@OverridepublicvoidprePut(finalObserverContexte,finalPutpu

hadoop - HBase 表设计 - 高窄与扁平宽的方法

我必须每月在HBase表中存储有关实体的信息。我想使用mapreduce逻辑处理迄今为止实体可用的所有月份详细信息。我很困惑是选择高窄设计还是扁平宽设计HBase表。使用平面宽度方法,实体ID将保留为行键,月份ID将保留为列限定符,详细信息将保留为限定符值。在HBase-mapreduce中,我可以在映射和处理中获取实体的所有详细信息。高-窄方法将行键存储为实体ID和月份的组合。此外,详细信息将存储在单独的列中。在HBase-mapreduce中,我必须在map中获取entiy的详细信息,并在reducer中聚合所有月份。哪种方法更好并产生更好的性能?提前致谢。

nosql - 单机适合Hadoop和HBase学习吗?

我对使用Hadoop和HBase编写Web服务很感兴趣(我发现我很喜欢与BigData相关的主题),但我想问你一件事。如果我将它安装在我的PC上,这是否足以学习这些技术的一些基础知识?还是会被限制甚至不能用? 最佳答案 是的,您可以在普通PC上使用它。它可以作为伪分布式安装在一台机器上,它将多个“服务器”作为单独的进程。请注意,Apache表示Windows安装分布式操作尚未经过充分测试,但如果您正在尝试学习这些技术,那应该不是问题。 关于nosql-单机适合Hadoop和HBase学习

hadoop - 为什么导出的 HBase 表比原始表大 4 倍?

我需要在更新到新版本之前备份HBase表。我决定使用标准Export将表导出到hdfs工具,然后将其移动到本地文件系统。由于某种原因,导出的表比原始表大4倍:hdfsdfs-du-h1.4Tbackup-my-tablehdfsdfs-du-h/hbase/data/default/417Gmy-table可能是什么原因?它与压缩有某种关系吗?附言也许我制作备份的方式很重要。首先我做了一个snapshot来自目标表,然后是cloned它到一个复制表,然后从此复制表中删除不必要的列族(所以我预计结果大小会小2倍),然后我在这个复制表上运行导出工具。为future的访问者更新:这是压缩导出

hadoop - Protocol Buffer 错误 : Hbase createTable & put in java code(protobuf-LiteralByteString)

我正在使用kafka、sparkstream和hbase开发java应用程序。通过mavencleaninstall编译代码后,当我运行我的应用程序时遇到以下错误:hadoop版本:2.7.3HBase版本:hbase-0.98.24-hadoop2星火:2.1.0虽然我已经检查并应用了该站点中以前的答案,但我仍然遇到了问题。谢谢...`Exceptioninthread"main"org.apache.hadoop.hbase.DoNotRetryIOException:java.lang.NoClassDefFoundError:com/google/protobuf/Litera

hadoop - 将数据放入数据库时​​使用 hbase java 客户端时出现问题

我正在测试hbase。我正在使用一个没有hadoop的独立的。我使用版本hbase0.90.6代码工作正常,我升级到最新版本0.94.0它失败并在我尝试将数据放入表中时出现此异常。异常Exceptioninthread"main"org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:Failed1action:DoNotRetryIOException:1time,serverswithissues:xxxx:36601,atorg.apache.hadoop.hbase.client.HConnecti

performance - hbase 'checkAndPut' 延迟是否高于简单的 'put'?

逻辑上……checkAndPut似乎需要更多时间。我对加载场景特别感兴趣,我们看到平均checkandput延迟为15ms(每行数据17KB)....将checkAndPut转换为简单的“PUT”显着减少平均延迟。对于99%的用例,当我们执行checkAndPut时,我们写入的行键甚至不存在。 最佳答案 是的,check和put延迟会比简单的put延迟更高。然而,高多少取决于memstore中的数据量以及block缓存中的数据量。checkAndMutate的工作方式如下:获取行锁等待所有未完成的交易被确认获取所需的电池使用提供的规

java - HBase多表扫描作业

我正在查看以下场景。我每天发送一个数据文件。我将其添加到HBase中,名称为file-yyyyMMdd格式。所以在一段时间内我有很多数据库,例如tempdb-20121220tempdb-20121221tempdb-20121222tempdb-20121223tempdb-20121224tempdb-20121225现在我想要做的是针对特定日期范围获取列表(如果表与该范围匹配),以便我可以创建索引。我正在使用hbase-0.90.6就我的研究而言,TableMapReduceUtil.initTableMapperJob只需要1个表名。TableMapReduceUtil.ini