hbase-unsecure

hadoop - Hbase、区域服务器、存储文件大小、索引

您是否对Hbase中的索引表使用压缩？如果是这样，您使用什么类型的压缩？我注意到我的索引表的大小每天都很大，而且每天都在增长……添加新存储后，大小甚至更大。我有例如表A，其大小为108.3G在/apps/hbase/data/data/default中，大小为380.0G的索引表，并且在/apps/hbase/data/archive/data/default中，索引表的大小为1.2T你能建议我如何处理索引表的大小吗？为什么HDFS上归档的数据这么大？/apps/hbase/data/archive/data/default能否以某种方式管理HDFS上存档目录的大小？存档占用了我HDF

nosql - 使用 HBase 和/或 Cassandra 进行搜索(和一般查询)(最佳实践？)

我有一个User模型对象，其中只有很少的字段(属性，如果你愿意的话)。说出“名字”、“姓氏”、“城市”和“出生年份”。每个用户还获得“唯一ID”。我希望能够通过它们进行搜索。我该如何正确地做到这一点？到底该怎么做？我的理解(几乎适用于任何键值存储——先是键，然后是值)u:123456789=serialized_json_object(“u”作为用户key的简单前缀，123456789是“唯一ID”)。现在，考虑到我希望能够按名字和姓氏进行搜索，我可以保存在:f:Steve=u:384734807,u:2398248764,u:23276263f:Alex=u:12324355,u:1

Cassandra nosql section 的 Steve hadoop hbase

hadoop - HBase 截断表

如果我将从HBase中截断表，那么1)它是否也从底层HDFS系统中删除数据，或者它只是用删除标记标记数据？2)我如何确保/验证数据也已从底层HDFS系统中删除？最佳答案目前没有办法确保从底层文件系统中完全删除HBase表数据。HBase表的文件可能会从HDFS中删除，但这仍然只是意味着它们被移动到垃圾文件夹。关于hadoop-HBase截断表，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/qu

hadoop HBase section 底层 hdfs

hadoop - Hive 无法识别 hbase 中的数字类型值

我有一个hive/hbase集成表，定义如下。createtableuser_c(user_idint,c_namestring,c_kindstring,c_industrystring,c_jobtitlestring,c_workyearint,c_titlestring,c_companystring)storedby'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:c_name,cf1:c_kind,cf1:c_indu

hadoop hbase code cf1 column client integration hive

python - 从 python 连接独立的 hbase

我正在开发一个以hbase作为后端的python应用程序。我已经安装了hbase，它的shell运行良好。请注意，我还没有安装hadoop，因为我没有节点。但由于令人印象深刻的架构，我决定使用hbase。现在的问题是，我无法从happybase等库或直接使用thrift从python连接到hbase。我试过了-http://binesh.in/hbase/connecting-to-a-remote-standalone-hbase/也可以，但没用。请帮我解决这个问题。更新->>>>importhappybase>>>>con=happybase.Connection('localho

python hbase gt section hadoop thrift

hadoop - 从 mysql 到 hbase 的 sqoop 导入问题

我正在尝试使用sqoop将数据从mysql导入到hbase:sqoopimport--connectjdbc:mysql://:3306/test--usernameUSERNAME-P--tabletesttable--direct--hbase-tabletesttable--column-familyinfo--hbase-row-keyid--hbase-create-table过程运行顺利，没有任何错误，但是数据去了hdfs，没有到hbase。这是我的设置:HBase和Hadoop在我的三台服务器集群中以分布式模式安装。Namenode和HBaseMaster是一台服务器。D

hadoop mysql section hbase strong sqoop

apache - hbase中有自动提交的概念吗？

我是hbase的新手，想了解更多。我只想知道HBASE有没有自动提交的概念？最佳答案 HBasedocumentation它不是ACID兼容的数据库。但是，它确实保证了某些特定的属性。本规范列举了HBase的ACID属性。他们的概念是AutoFlush在HBase中类似于自动提交。如果你使用ApachePhoenix怎么办？用于在HBase中获取或更新数据，然后您可以将属性phoenix.connection.autoCommit设置为true，默认为false。关于apache-h

apache hbase section noreferrer noopener hadoop bigdata

hadoop - 对 hbase/hdfs 的商业支持

我知道cloudera处于为hadoop/hbase/hdfs提供商业支持的最前沿。还有其他供应商提供此服务吗？-清美最佳答案 Cloudera为hadoop和hbase提供商业支持。还有其他供应商，例如提供工具的Karmasphere。没有其他人提供像Cloudera这样规模的hadoop支持。更新:Hortonworks，雅虎的hadoop衍生产品也进入了这个领域。关于hadoop-对hbase/hdfs的商业支持，我们在StackOverflow上找到一个类似的问题：

hadoop hbase section noreferrer hdfs

Hadoop Hbase 工作流程

我对hadoop还是比较陌生，通过做一些示例练习，我对它有了一些了解，但我对它在实践中的使用方式有疑问。许多应用程序似乎都适合批处理(例如日志文件数据)，但我不确定hbase如何适应这里？将日志文件数据存储在hbase中然后处理并输出到其他一些存储格式是否很常见？将原始日志文件传递到hadoop然后将输出存储在hbase中是否更常见？我想我真正的问题是通常将hbase用作hadoop的输入或输出，或两者兼而有之？最佳答案 HBase适用于任何需要随机、低延迟访问数据的地方，而Hadoop生态系统的其余部分大部分都是面向批处理的，正

工作流程 Hadoop section MapReduce hbase

java - 在 HBase 中存储和更新 Set 的最佳方式是什么？

情况是这样的:我创建了一个SetWritable类，基本上是实现Writable接口(interface)的java.util.Set的包装器。我有一个包含一个列族和一列的HBase表，该列的值是序列化的SetWritable对象。现在，如果我想向集合中添加一个元素，我需要从HBase中提取行，将其反序列化为SetWritable，添加我的元素，序列化SetWritable，然后将其推回HBase。所以这意味着我的映射器和HBase之间有很多很多的通信。鉴于我正在处理大量数据，这可能会降低我的表现。我想做的只是将新元素发送到HBase，并在HBase服务器上有一些代码反序列化SetWr

HBase java section SetWritable performance hadoop mapreduce

126 127 128129130 131 132