草庐IT

HBASE_CLASSPATH

全部标签

java - HBase:Zookeeper 告诉远程客户端连接到本地主机

这里是HBase/Hadoop的super新手。我启动并运行了一个双节点HBase测试集群,现在我正尝试从远程Java客户端连接到该集群。这是我卡住的地方:客户端成功连接到单服务器Zookeeperquorum(与HBasemaster在同一台服务器上运行),但是Zookeeper传回给客户端的地址是localhost,并且(显然)客户端失败连接到任何东西,因为HBase没有在本地运行。考虑到出于管理原因我无法编辑客户端主机文件(无论如何我都不愿意这样做,因为这看起来像是一个糟糕的hack),有没有办法让Zookeeper为HBase主服务器?Java代码:publicstaticfi

java - 尝试运行 HBase map reduce 时出错

我真的很难在Hadoop上运行Hbase-MapReduce。我确实使用HadoopHortonwork2版本。我使用的HBase版本是0.96.1-hadoop2。现在,当我尝试像这样运行我的MapReduce时:hadoopjartarget/invoice-aggregation-0.1.jarstart="2014-02-0101:00:00"end="2014-02-1901:00:00"firstAccountId=0lastAccountId=10Hadoop告诉我在其文件系统中找不到invoice-aggregation-0.1.jar?!我想知道为什么它需要在那里?这

Java - HBase 客户端停留在 session 建立完成

我正在尝试连接到远程HBase集群以检索数据,但客户端一直在同一个地方挂起:15/02/1111:32:58INFOzookeeper.ZooKeeper:Clientenvironment:zookeeper.version=3.4.5-1392090,builton09/30/201217:52GMT15/02/1111:32:58INFOzookeeper.ZooKeeper:Clientenvironment:host.name=rap-es-1.hidden.host.com15/02/1111:32:58INFOzookeeper.ZooKeeper:Clientenvir

hadoop - 如何使用 HBase 和 Hadoop 为实时流量提供服务并执行分析? (单个集群还是单独的集群?)

我们的主要目的是使用Hadoop进行分析。在此用例中,我们进行批处理,因此吞吐量比延迟更重要,这意味着HBase不一定是合适的(尽管更接近实时分析听起来确实很有吸引力)。我们正在尝试使用Hive,到目前为止我们很喜欢它。虽然分析是我们在不久的将来希望使用Hadoop做的主要事情,但我们也希望有可能将我们的部分操作迁移到HBase并从中提供实时流量。将存储在那里的数据与我们在分析中使用的数据相同,我想知道我们是否可以只拥有一个系统来同时进行实时流量和分析。我阅读了很多报告,似乎大多数组织都选择使用单独的集群来提供流量和分析。出于稳定性目的,这似乎是一个合理的选择,因为我们计划让很多人编写

hadoop - 更详细的在 ubuntu 上安装 hbase 和 hadoop 的链接

我打算在ubuntu上安装hadoop和HBase。当我试图搜索任何好的链接时,我无法找到哪个是完全清晰和更具描述性的。我需要一个详细的链接,从中我可以轻松地设置hsdoop和hbase。谢谢 最佳答案 你没有提到你想在伪分布式模式或多分布式或单节点或多节点中设置这些。无论如何,这里有一些对您有帮助的链接hadoopsinglenodecluster,hadoopmultinodecluster,对于hbase,我认为您应该看到这些链接installHBaseinpseudodistributedmode,hbaseinstalla

hadoop - HBase 中的压缩

我正在使用HBase来存储大量传感器数据。我曾尝试使用一个txt文件来存储我的传感器数据,对于一个20MB的文件,如果我压缩它,它将在磁盘上减少到1MB。我的问题是:HBase本身在存储数据到磁盘时会自动压缩吗?谢谢 最佳答案 您可以使用lzo、gzip或snappy进行hbase压缩。如果您希望将它们用于hbase压缩(包括gzip),则需要自己设置lzo/snappy。通常-lzo比gzip压缩更快,尽管gzip压缩比通常更好。Snappy在压缩方面很稳健,但压缩率通常更差。创建表时-您可以指定压缩/压缩库-如果使用压缩,则hf

hadoop - 使用协处理器 HBase 创建二级索引

我一直在尝试编写自己的协处理器,它使用prePutHook创建二级索引。首先,我一直在尝试让prePut协处理器工作。到目前为止,我可以让协处理器添加到传递给它的put对象。我发现我无法让协处理器写入与传入的put对象正在写入的行分开的行。显然要创建二级索引,我需要弄清楚这一点。下面是我的协处理器的代码,但它不起作用。是的,所有表都存在,'colfam1'也存在。HBase版本:HBase0.92.1-cdh4.1.2来自Cloudera的CDH4有人知道问题出在哪里吗?@OverridepublicvoidprePut(finalObserverContexte,finalPutpu

hadoop - Cloudera 管理器 : Where do I put Java ClassPath for MapReduce jobs?

我已经让Hadoop-Lzo在我的本地伪集群上愉快地工作,但是第二次我在生产中尝试相同的jar文件时,我得到:java.lang.RuntimeException:native-lzolibrarynotavailable库已验证在DataNode上,所以我的问题是:我在什么屏幕/设置中指定native-lzo库的位置? 最佳答案 对于MapReduce,您需要将条目添加到MapReduce客户端环境安全阀。您可以通过转到配置下的查看和编辑选项卡找到MapReduceClientSafety。然后在那边添加这些行:HADOOP_CL

hadoop - HBase 表设计 - 高窄与扁平宽的方法

我必须每月在HBase表中存储有关实体的信息。我想使用mapreduce逻辑处理迄今为止实体可用的所有月份详细信息。我很困惑是选择高窄设计还是扁平宽设计HBase表。使用平面宽度方法,实体ID将保留为行键,月份ID将保留为列限定符,详细信息将保留为限定符值。在HBase-mapreduce中,我可以在映射和处理中获取实体的所有详细信息。高-窄方法将行键存储为实体ID和月份的组合。此外,详细信息将存储在单独的列中。在HBase-mapreduce中,我必须在map中获取entiy的详细信息,并在reducer中聚合所有月份。哪种方法更好并产生更好的性能?提前致谢。

nosql - 单机适合Hadoop和HBase学习吗?

我对使用Hadoop和HBase编写Web服务很感兴趣(我发现我很喜欢与BigData相关的主题),但我想问你一件事。如果我将它安装在我的PC上,这是否足以学习这些技术的一些基础知识?还是会被限制甚至不能用? 最佳答案 是的,您可以在普通PC上使用它。它可以作为伪分布式安装在一台机器上,它将多个“服务器”作为单独的进程。请注意,Apache表示Windows安装分布式操作尚未经过充分测试,但如果您正在尝试学习这些技术,那应该不是问题。 关于nosql-单机适合Hadoop和HBase学习