草庐IT

HBASE_CLASSPATH

全部标签

hadoop - 到 HBase 的 Flume 交易失败

我有一个Flume代理将推文写入HBase接收器。几秒钟后,到接收器的事务失败,每隔8-10秒我就会在Flume代理日志中收到这些错误消息,告诉我到HBase的事务失败。奇怪的是,一些推文仍然通过并进入HBase表。是什么原因造成的?这是在单节点ClouderaQuickstartVM上运行,会不会是资源问题?这是代理日志9:20:44.618PMERRORorg.apache.flume.SinkRunnerUnabletodeliverevent.Exceptionfollows.org.apache.flume.EventDeliveryException:Couldnotwri

apache - Hbase Master 和 Region 服务器无法启动

Hadoop在分布式模式下成功运行。在分布式模式下启动HBase时出现以下错误。尝试了hbase-site.xml配置中的所有内容。不知道如何处理这个问题?014-03-1013:55:42,493INFOorg.apache.zookeeper.ClientCnxn:Openingsocketconnectiontoserverip-112-11-1-111.ec2.internal/112.11.1.111:2181.WillnotattempttoauthenticateusingSASL(Unabletolocatealoginconfiguration)2014-03-101

hadoop - 我如何使用 distcp 备份 hbase?

我想使用distcp备份hbase文件。然后将hbase指向新复制的文件并使用存储的表。我知道有一些工具可以推荐用于这项工作。但是,我想知道在复制文件后我需要做什么才能让hbase识别复制的文件。例如,我想启动hbaseshell并从新复制的文件中扫描存储的表。 最佳答案 DistCp(分布式副本)是用于大型集群间/集群内复制的工具。因此,如果您想将clusterA备份到clusterB,您必须:使用distcp从clusterA复制到clusterB启动一个Hbasemaster和一些RegionServers在clusterB上

Azure 上的 Node.js 和 HBase (HDInsight)

我正在尝试从Node.js访问MicrosoftAzure上的HBase。我查看了不同的库,例如hbase和RESTAPI(webhcat)。我想要实现的是创建一个表并从Node.js上传数据。稍后我想对该数据集进行查询。不幸的是,Azure的文档在这方面没有太大帮助,因为它侧重于PowerShell和.NETSDK。我发现的一篇非常有用的文章是:http://blogs.msdn.com/b/bigdatasupport/archive/2014/04/22/querying-hdinsight-job-status-with-webhcat-via-native-powershel

java - 无法使用 Java 客户端 API 扫描 Hbase 中的表

我正在尝试扫描Hbase中的表并检索其中的所有记录。这是我用来扫描表格的方法。我使用Maven构建项目。publicvoidgetAllRecord(StringtableName){try{HTabletable=newHTable(configuration,tableName);Scans=newScan();ResultScannerss=table.getScanner(s);for(Resultr:ss){for(KeyValuekv:r.raw()){System.out.print(newString(kv.getRow())+"");System.out.print(

hadoop - Lily Hbase Indexers 无故退出

我正在运行Cloudera/Solr集群,并尝试使用hbase-solr(Lily)索引器将Hbase的NRT索引编入Solr。批处理模式索引工作正常。但是,在我开始以恒定流加载数据后,Lily索引器开始一个接一个地死掉。他们不会打印出向我跳出的特定错误消息,但都以相同的方式结束:2014-09-1016:04:56,770INFOorg.apache.hadoop.hbase.zookeeper.RecoverableZooKeeper:Processidentifier=ip-172-31-1-204.ap-southeast-2.compute.internal,44013,14

java - 使用 Hadoop YARN 安装 HBase

我正在尝试在ubuntu上安装HBasev0.98.6。我已经在操作系统上运行了HadoopYARN。我应该停止现有的Hadoop进程并完全依赖HBase还是使用现有的YARN设置配置HBase?如果需要,我可以分享更多信息。我试图先在伪分布式上运行HBase,然后在分布式模式下运行。需要说明的是——我问的是在安装HBase之前是否需要运行HadoopYARN(以分布式方式——而不是在一台计算机上)。如果没有,并且我在那些计算机上仍然有HadoopYARN,它会导致HBase在这些服务器上运行时出现任何问题吗? 最佳答案 这个问题有

java - 远程访问hbase

我正在使用hbasejavaapi远程连接到hbase,但是当我执行代码时,我得到了MasterNotRunningException。当我调试代码时,我了解到zookeeper将hmaster的地址返回为localhost,因此客户端试图在本地搜索hmaster。当我将/etc/hosts文件更改为:localhost然后一切正常。但是,我认为这不是正确的方法。我想我必须更改zookeeper配置中某处的地址,但我没有得到它。 最佳答案 Hbase会自动注册到ZK,因此您不必在那里进行配置。使用主IP地址而不是“本地主机”以避免进

hadoop - 如何提高hbase中的扫描性能?

我正在使用hbase96进行分析。我通过定义startRow和endRow对行键范围应用单列值过滤器来从hbase获取数据。单个请求扫描1500000条记录需要5-6分钟,不处理并发请求。如何提高hbase扫描的性能?我们在亚马逊上有3个数据节点和2个主节点。下面是我的代码Scans=newScan();s.setCaching(10000);s.setStartRow(Bytes.toBytes(start_date));s.setStopRow(Bytes.toBytes(end_date));FilterListfilters=newFilterList(FilterList.O

python - 带有 HBase 的 flask

我正在为一个相当大的数据集设计一个API服务。数据目前存储在HDFS中,我们(BA)通常从Hive中查询它。最后,我们有几个表,我们想以API的形式暴露给客户,这些API将来也可能被用来备份前端应用程序。我是一名Python程序员,之前用过Flask。但是,构建可良好扩展的API服务的正确技术组合是什么?我听说有人提到“HBase+SolrCloud”将是解决方案。任何建议都会非常有帮助,如果认为这与编程无关,我会删除这篇文章。(我也对PaaS、AWS等IaaS、googlecloud持开放态度,如果他们实际上已经有了一个不错的包的话。) 最佳答案