草庐IT

HBASE_CLASSPATH

全部标签

rest - 如何通过负载均衡在 HBase 集群上使用 REST api

我有一个带有1个主节点和5个从节点的试验HBase集群。我想通过其RESTAPI访问(基本上通过GET写入广告印象数据)集群。我希望稍后能够使用Hadoop/Hive?Pig(TBD)运行聚合报告,所以我想要一张数据图片。我是在主节点上启动REST服务器并只写入该单个端点,还是在每个从节点上启动REST服务器实例并在从节点之间进行负载平衡写入?(后者似乎不正确,但我在文档中看到一些提及,所以有点困惑)。 最佳答案 我使用带有通过nginx提供的负载平衡的restapi。你的nginx配置看起来像这样......upstreamclu

java - hbase 拒绝远程用户连接

嗨,我是hbase和hadoop的新手。我已经正确设置了它们,但是从同一台机器上检查它们并且工作正常。现在当尝试从java客户端远程连接时,这个异常来了。我真的需要帮助指导我这件事。异常(exception)情况如下:/04/1717:41:35INFOzookeeper.ZooKeeper:Clientenvironment:user.name=xyz12/04/1717:41:35INFOzookeeper.ZooKeeper:Clientenvironment:user.home=/home/xyz12/04/1717:41:35INFOzookeeper.ZooKeeper:C

hadoop - 以HBase为数据源计算文档的TF-IDF

我想计算存储在HBase中的文档的TF(词频)和IDF(逆文档频率)。我还想把计算出来的TF保存在一个HBase表中,也想把计算出来的IDF保存在另一个HBase表中。你能指导我完成吗?我查看了Mahout0.4中的BayesTfIdfDriver,但我没有抢先一步。 最佳答案 解决方案的概要非常简单:对您的hbase表进行单词计数,存储每个单词的词频和文档频率在你的reduce阶段聚合每个单词的词频和文档频率根据您的文档数量,再次扫描您的聚合结果并根据文档频率计算IDF。关于TF-IDF的维基百科页面是记住公式细节的一个很好的引用

hadoop - Apache HBase 和 Cloudera HBase 兼容吗?

在工作中我们正在尝试做以下事情:通过Amazon运行ElasticMapReduce作业,将Hadoop卡住在0.20.205版本将输出写入运行在EC2上的HBase,特别是来自Cloudera的0.92.1-cdh4.0.1到目前为止,我发现当我在Hadoop作业(通过maven打包)中使用ApacheHBase0.92.1时,我的WordCount测试似乎有效。我担心这是意外工作,随着我的使用成熟,它可能会崩溃。但是,当我在我的Hadoop作业中打包HBase0.92.1-cdh4.0.1时,我得到一个ClassNotFoundException:https://emr-qa.ev

hadoop - 在 amazon EMR 上运行 HBase 时,为什么/tmp 文件夹与实际数据相比很大?

我们在amazonEMR上有一个默认配置的hadoop+hbase集群,所以mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的集群已经运行了一段时间,现在/tmp为500Gb,而实际/hbase数据为70Gb。这种差异似乎太大了,我们是否应该定期删除一些/tmp数据? 最佳答案 经过一些调查,我发现我们的/tmp数据的最大部分是由Amazon将Hbase自动备份到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。我们决定禁用Amazon的自动备份

java - hbase数据的分布式分析

我对hbase有点陌生,已经能够设置hbase并查询存储在多台hadoop机器上的数据,但我想知道是否也可以在hbase中分发数据分析。这是我的情况,我有几十亿条记录需要快速分析,我想让X服务器查询数据库并获取查询的独特部分,以便它们可以处理它,而不是让单个服务器遍历整个数据集。这可能吗?我该怎么做?我非常不确定如何处理这个问题,因为我意识到所有查询都需要协调(每个服务器不能单独查询hbase,否则hbase将不知道如何在服务器之间拆分请求)。我很困惑,但我想也许有一种native方法可以在hadoop中执行此操作?如果有帮助,我的应用程序正在运行java,并且我正在使用clouder

hadoop - HBase 与 Hadoop 集成 - 同步支持

我对HBase或Hadoop比较陌生,这听起来可能很天真。然而..我在Hbase与现有hadoop集群的集成方面遇到了问题。为了学习,我配置了一个2节点的Hadoop1.1.1集群。让我们说主人和奴隶。我什至可以毫无问题地运行mapreduce示例。在Master上---1.Namenode2.SecondaryNamenode3.JobTracker+4.Datanode5.TasktrackerOnSalve---1.Datanode2.TaskTracker现在,我想在这个hadoop集群上运行HBase0.90.6。问题是这个版本的HBase与Hadoop-code-appen

hadoop - 如何删除 hbase 表中一个家庭的所有数据?

我们有一个包含多个家庭的HBase表,我们需要删除某个家庭的所有数据,但其余部分保持不变。我们只需要删除数据,并将家庭留在那里,因为我们将用该家庭的新数据重新填充表。最简单的方法似乎是从文件系统中删除与该家族关联的文件(位于../{table_name}/{some_hash}/{family_name}/下)。这样做有什么我们应该注意的副作用吗?如果有,是否有更安全、更简单的方法来做到这一点? 最佳答案 更安全的方法是deleteColumn并完全删除该系列,然后使用addColumn重新添加它.请注意,您需要在进行这些更改之前禁

java - 如何在HBase中设置In-Memory

我已经在我的HDFS0.20.0上启动并运行了HBase0.94.0。我正在做作业,我必须将我的列族放入In-Memory我有两个列族No和Subject。将它们设置为In-Memory之后newHColumnDescriptor("No").setInMemory(true);newHColumnDescriptor("Subject").setInMemory(true);当我检查我的localhost:60010时,表的详细信息仍然显示IN_MEMORY=>'false'为什么会这样?我需要的不仅仅是设置.setInMemory(true) 最佳答案

hadoop - 在 HBase 上运行 MapReduce 会出现 Zookeeper 错误

我正在用Hadoop和HBase做一个测试项目。目前集群有2个Ubuntu虚拟机托管在Windows机器上。我能够使用以下HBaseJavaAPI配置远程执行PUT、QUERY和DELETE操作(在我的主机中)config=HBaseConfiguration.create();config.set("hbase.zookeeper.quorum","192.168.56.90");config.set("hbase.zookeeper.property.clientPort","2222");当我尝试使用与上述相同的配置在Windows上运行HBaseMapReduce作业时,出现以