hbase-write

hadoop - Hbase 上的 phoenix 和 hive ETL

phoenix是否适合ETL和聚合？我正在尝试对我的数据进行一些ETL。现在我正在使用hbase来存储我的数据(我们网站上的足迹)。我需要对这些数据进行一些聚合，例如每个url的页面浏览量......等等。根据我的研究，我知道hive可以用于hbase数据的ETL，加上hql提供了sql语言，这样我们就不需要自己写map-reduce代码了。但是当我尝试使用hive(pyhive)查询hbase时，需要很长时间才能完成。此外，如果我有phoenix在hbase上执行sql，我的hbase上还需要hive吗？现在当我尝试使用一些复杂的sql时，phoenix会超时。而且hive非常非常慢

scala - 我怎样才能让 HBase 与 sbt 的依赖管理配合得很好？

我正在尝试启动一个使用CDH3的Hadoop和HBase的sbt项目。我正在尝试使用project/build/Project.scala文件来声明对HBase和Hadoop的依赖关系。(我承认我对sbt、maven和ivy的掌握有点薄弱。如果我说或做一些愚蠢的事情，请原谅我。)Hadoop依赖项使一切顺利进行。添加HBase依赖项导致对Thrift0.2.0的依赖项，似乎没有repo协议(protocol)，或者从这个SOpost.听起来是这样的所以，真的，我有两个问题:1.老实说，我不想依赖Thrift，因为我不想使用HBase的Thrift接口(interface)。有没有办法告

scala HBase section 34 noreferrer hadoop thrift sbt

hadoop - 为什么 Hbase with Hadoop map reduce 性能慢？

我已经在3台具有完全分布式模式的机器上配置了hadoop1.0.3。在下面的第一台机器上，作业正在运行:1)4316SecondaryNameNode4006NameNode4159数据节点4619任务追踪器4425JobTracker2)2794任务追踪器2672数据节点3)3338数据节点3447任务追踪器现在当我在上面运行简单的mapreduce作业时，执行mapreducejob需要更长的时间。所以我在Hadoop上安装了HBASE层。现在我在3个集群上有以下HBASE进程。1)5115HQuorumPeer5198HMaster5408HRegionServer2)3719H

hadoop code 39 追踪器 cloud hbase

java - HBase 中的组合键

我是HBase的新手，必须使用组合键作为主键。请告诉我Howtomakecomposite-keyinhbase?AndHowtosearcharecordusingthatcomposite-key? 最佳答案只需连接您的key部分并使用它。没什么特别的。假设您有一个客户表，并且您想要一个由CustID和Timestamp组成的行键。然后你想获取特定用户的所有结果，而不考虑时间戳。你会做这样的事情:publicstaticvoidmain(String[]args)throwsIOException{Configurationc

HBase java Bytes section toBytes hadoop mapreduce cloud

java - HBase:/hbase/meta-region-server节点不存在

我在上面安装了cloudera和hdfs、mapreduce、zookeper、hbase。具有这些服务的4个节点(3个动物园管理员)。全部由cloudera向导安装，在cloudera中没有配置问题。从Java连接时出现错误:9:32:23.020[main-SendThread()]INFOorg.apache.zookeeper.ClientCnxn-Openingsocketconnectiontoserver/172.20.7.6:218109:32:23.020[main]INFOorg.apache.hadoop.hbase.zookeeper.RecoverableZo

meta-region-server region cloudera hbase zookeeper java hadoop apache-zookeeper

hadoop - TTL 行为 - HBase

我们在HBase表中有很多数据。我是这个NoSQL世界的新手。我们希望仅在固定时间内保留数据。我们应该编写单独的清理脚本还是可以依赖TTL配置？我浏览了可用的文档，但不理解确切的行为。最佳答案 HBasedocumentation明确表示早于TTL的数据将被HBase自动删除。关于hadoop-TTL行为-HBase，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/217205

hadoop HBase section stackoverflow

hadoop - hbase 随机写入是如何工作的

我是Hbase的新手。Hbase适用于对表进行随机更新(放入或删除)，但我无法理解hbase如何执行该操作。由于hbase使用HDFS进行存储，因此无法更新HDFS中的任何内容。Hbase使用memstore更新记录并首先将任何编辑写入memstore。因此MemStore包含按排序键顺序排列的任意数量的更新行。当它将数据转储到磁盘到hfile时，这个hfile是否与其他hfiles全局排序.转储所有hfile后，hfile被复制到HDFS。WAL编辑日志也有同样的问题。WAL日志文件是否也在HDFS中复制。对于每次更新，我们都将更新复制到HDFS。最佳答

hadoop hbase section memstore bigtable

hadoop - 通过 API 获取 Hbase 区域大小

我正在尝试为Hbase编写一个平衡器工具，它可以根据区域计数和/或区域大小(存储文件大小的总和)来平衡跨区域服务器的区域。我找不到任何返回区域大小或相关信息的HbaseAPI类。我已经检查了一些可用于获取其他表/区域信息的类，例如org.apache.hadoop.hbase.client.HTable和HBaseAdmin。我在想，另一种实现方法是使用Hadoop类之一，它返回文件系统中目录的大小，例如org.apache.hadoop.fs.FileSystem列出特定HDFS路径下的文件。有什么建议吗？最佳答案我用它来进行

hadoop Hbase section final clusterStatus

c# - 如何使用 C# 连接到 HBase/Hadoop 数据库

最近，ExploringMicrosoftHDInsightHadoopforWindows。但不知道从哪里开始，开始使用apachehadoop和c#/asp.netmvc。我知道http://hadoopsdk.codeplex.com/是最好的可用资源，但找不到从头开始的文档？比如创建集群、数据库，然后将其连接到C#应用程序。最佳答案最简单的入门方法是使用HDInsightserviceonAzure(仍在预览中，但效果很好)。这样，您只需登录到您的Azure门户并启动一个集群，该集群将链接到您的Azure存储。如果实在不

c#noreferrer section noopener hadoop hbase hive azure-hdinsight

hadoop - 一致性在 HBase 中是如何工作的

从CAP上，我读到HBase支持一致性和分区容错性。我想知道HBase中的一致性是如何实现的。是否应用了任何锁定？我在网上查了下没有找到这方面的好资料。任何机构能否提供有关此主题的任何博客/文章。最佳答案对行数据的访问是原子的，包括任意数量的正在读取或写入的列到。不存在跨越多行或跨表。原子访问是这种架构的一个因素严格一致，因为每个并发的读者和作者都可以做出安全的假设关于一行的状态。当数据更新时，它首先写入提交日志，称为预写日志(WAL)在HBase中，然后存储在内存中(按RowId排序)memstore。一旦内存中的数据有超过给

hadoop HBase section strong

54 55 565758 59 60