草庐IT

java - 获取区域开始键和结束键-HBase

我有hbase0.94.0。我正在尝试检索所有区域的StartKey和EndKey。我使用以下代码获取hbase中的区域。MetaScannerms=newMetaScanner();System.out.println("Regionof.META."+ms.listAllRegions(config));它产生了以下输出。Regionof.META.[{NAME=>'Student9,,1364452609604.9955bddb298229d6b9fa749dfa7d6b40.',STARTKEY=>'',ENDKEY=>'0011000',ENCODED=>9955bddb29

hadoop - 亚马逊 AWS 上的区域服务器数量

假设我在Amazonelasticmapreduce上启动了一个集群,并且有一个主节点实例、2个核心节点实例和15个任务节点实例。我想我使用mapreduce作业和增量上传将大约1TB的数据上传到hbase。现在-如何找到表大小和区域拆分(字节)。通常在CDH上我会做一个hadoopfs-du/hbase。但是我的master节点上没有/hbase目录。我也很想知道区域服务器分配将如何运作。因此,即使我有100个区域(如果我有1个主节点),这也意味着整个IO都会受到限制吗?谢谢问候 最佳答案 您是否使用ElasticMapReduc

hadoop - HBase 区域服务器 : error telling master we are up

我在从属RegionServer的日志中收到以下错误。问题似乎出在regionserver.HRegionServer:reportForDutytomaster=localhost,60000,1397430611631withport=60020master设置为localhost但实际上应该指向master。即使在阅读了文档之后,我也无法弄清楚奴隶是如何弄清楚主人的。完整日志为:2014-04-1404:49:35,939INFO[regionserver60020]regionserver.HRegionServer:CompactionCheckerrunsevery10se

hadoop - Hbase 区域请求不平衡

我使用这个TTL来创建表:create"aos:for_test",{NAME=>"data",COMPRESSION=>"LZO"},{NUMREGIONS=>240,SPLITALGO=>"UniformSplit"}并导入一个大数据文件(近14G)到表中。即使表有240个region,客户端报错如下:Error:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:Failed1822actions:RegionTooBusyException:1822times我检查了hbasewebUI,发现所

hadoop - 在 hadoop/hive 中将纪元时间转换为 PST 区域

我想将纪元时间转换为pst时区。例如:1482440069当我转换为PST时,我应该得到2016-12-22现在,当我尝试这个时,我得到了正确的答案SELECTfrom_utc_timestamp('1970-01-0107:00:00','PST');此外,当我尝试这个时,我得到了正确的值selectfrom_unixtime(cast(1482440069asbigint),'yyyy-MM-dd')o/p:2016-12-22但是,当我尝试这个查询时,我得到NULL响应selectfrom_utc_timestamp(from_unixtime(cast(1482440069as

hadoop - hbase 跳过区域服务器直接从 hfile 读取行

我正试图将超过100亿条记录转储到hbase中,这将平均每天增长1000万,然后尝试一个完整的表扫描记录。我知道对hdfs进行全面扫描会比hbase快。Hbase用于对不同的数据进行排序在高清文件系统上。该应用程序正在使用spark构建。数据被批量加载到hbase中。由于各种2G限制,区域大小从3G的初始测试减少到1.2G(仍然需要更详细的调查)。扫描缓存为1000且缓存block关闭hbase总大小在6TB范围内,在5个区域服务器(节点)上产生数千个区域。(建议低百)。Spark作业基本上运行每一行,然后根据范围内的列计算某些内容。使用内部使用TableInputFormat的spa

hadoop - HBase 区域服务器崩溃

我正在尝试创建大约589个表并进行随机插入。我开始逐表处理:所以我创建一个表,然后进行所有插入,然后创建另一个表,直到所有数据都被摄取。这个解决方案的架构是:Python客户端位于一台机器上,它使用数据摄取HBase。托管HBase的Cloudera服务器独立配置,这是一个与客户端位于同一台机器上的虚拟机,由其IP地址标识。该服务器的特性如下:64GB存储空间、4GBRAM和1个CPU。客户端与HBaseThrift服务器通信。所以这里的问题是,当我尝试摄取所有这些数据量时。在区域服务器关闭之前,客户端只能创建和插入大约300MB(大约创建了45个表并插入了相应的行,然后服务器在第46

hadoop - phoenix hbase 表预拆分,同一区域有多个拆分点

我正在使用apachephoenix4.9.1和hbase-1.1.2。为了预拆分表,我在创建表时使用了以下选项拆分(0,1,2,3,4,5,6,7,8,9,10)1)isitpossibletosplit(0&1,2&3,4&5,5&6,6&7,8&9)likethis?2)itriedmergingtheregionsmanuallyusinghbaseshell.ifimergeapresplittableto(0&1,2&3,4&5,5&6,6&7,8&9)whetheritwillcontainthepresplitinfoofbothregions?

python - 尝试从 Jupyter Notebook 使用 Spark 访问 Google Cloud Bigtable 时出现区域错误

我正在尝试从运行PySpark内核的JupyterNotebook中运行对GoogleCloudBigtable的并行访问。我以http://ec2-54-66-129-240.ap-southeast-2.compute.amazonaws.com/httrack/docs/cloud.google.com/dataproc/examples/cloud-bigtable-example.html为例我正在使用我的特定项目/区域/集群/表名称。身份验证通过在spark上下文中广播的服务帐户凭据进行。jconf={"hbase.client.connection.impl":"com.

hadoop - 区域服务器无法联系 HBase Master

我有一个由3个slave和1个master组成的Hadoop集群,上面有一个分别有3个RS和1个master的HBase集群。此外,在3台机器上还有一个Zookeeper集成。Hadoop集群以及Zookeeper整体正常运行。但是,HBase集群未能正确初始化。我通过运行./bin/start-hbase.sh启动HBase。这正确启动了HBaseMaster和区域服务器。hdfs中的hbase文件夹已正确设置。jpsonmasterhduser@master:~/hbase$jps5694HMaster3934JobHistoryServer3786NameNode3873Reso