草庐IT

hadoop - 使用 du 命令查看 HDFS 文件系统的大小

我知道“du-h”命令以人类可读的格式给出了磁盘使用情况。但是请让我知道在我的Hadoop集群的HDFS文件系统上使用“du-h”命令时显示的两个值是什么。[hduser@node2~]$sudo-uhdfshdfsdfs-du-h/6.3K768.0M/hbase00/tmp371.6M743.2M/userHbase内目录的输出:[hduser@node1~]$sudo-uhdfshdfsdfs-du-h/hbase/WALs00/hbase/WALs/hregion-9073552000/hbase/WALs/node1.example.com,60020,14633232428

hadoop - hbase复制和快照命令之间的区别

我在hbase中有一个表,其中包含大量数据,我想取回表的背面,所以在这种情况下这很好1--复制命令对表进行备份2--对该表进行快照另外请说明一下snapshot的内部机制是不是简单的重命名表?问候阿米特 最佳答案 snapshotisbest.HBase快照允许您拍摄表的快照,而不会对区域服务器产生太大影响。快照、克隆和恢复操作不涉及数据复制。此外,将快照导出到另一个集群不会对区域服务器产生影响。在0.94.6版本之前,备份或克隆表的唯一方法是使用CopyTable/ExportTable,或者在禁用表后复制HDFS中的所有hfil

hadoop - hive 到 Hbase : wrong use case for Spark?

我最近遇到了一个关于将数据从Hive迁移到Hbase的问题。我们项目在cdh5.5.1集群上使用Spark(7个节点在SUSELinuxEnterprise上运行,具有48个内核,每个256GBRAM,hadoop2.6)。作为初学者,我认为使用Spark从Hive加载表数据是个好主意。我正在使用正确的Hive列/HbaseColumnFamily和列映射在HBase中插入数据。我找到了一些关于如何将数据批量插入Hbase的解决方案,例如我们可以使用hbaseContext.bulkPut或rdd.saveAsHadoopDataset(我测试了两者的结果相似).结果是一个功能正常的程

hadoop - 如何使用 mapreduce 从 hbase SequenceFile 中提取键值对?

我使用HbaseExport实用工具将hbase表作为SequenceFile导出到HDFS。现在我想使用mapreduce作业来处理这个文件:publicclassMapSequencefile{publicstaticclassMyMapperextendsMapper{@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Mapper.Contextcontext)throwsIOException,InterruptedException{System.out.println(key+"...."+value);}}public

hadoop - 在 hbase 中导入导出表时找不到文件异常

我正在运行这个命令"hbaseorg.apache.hadoop.hbase.mapreduce.Driverexport'temp'/dump"但我遇到异常实际上我必须导出表并导入到不同的数据库中。2016-06-1517:56:49,365WARN[main]util.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2016-06-1517:56:49,463INFO[main]mapreduce.Export:vers

scala - 使用 Oozie 将 Spark 转为 Hbase

我试图从Spark在Hbase中创建一个表并插入数据,从中读取数据。当我从命令行运行spark作业时它工作正常。但是,每次我尝试使用oozie运行它时,它都会抛出不同类型的异常。这是我的sparkhbase代码valsc=newSparkContext("local","Hbasespark")valtableName="Morbidity_Dummy2"valconf=HBaseConfiguration.create()//AddlocalHBaseconfconf.addResource(newPath("file:///opt/cloudera/....../hbase-sit

hadoop - 使用 SAP HANA 和 Hadoop/HDFS 的传感器数据

我想将传感器数据保存在合适的数据库中。我每分钟有100.000次写入,每次写入100个字节。我也想对数据进行分析。我想到了hadoop,因为它有许多不同的框架来分析数据。(例如Apachespark)现在我的问题:Hbase一个nosql数据库将是合适的解决方案,因为它有一个列族数据模型来访问大列。但它运行在HDFS之上。HDFS有64MB大小的数据block。如果我有100字节数据,这对我意味着什么?我也想在hadoop之上运行机器学习。HBASE和SAPHana可以一起使用吗?(SAPHanarunwithhadoop) 最佳答案

hadoop - HBase 预拆分和最大区域大小

我无法找到问题的答案:我想预拆分HBase表,例如在5个地区。我已将配置中的最大文件大小设置为10GB。(当然只是例子)。如果我将所有5个区域都填满表怎么办?HBase会为此创建第6个区域吗?我发现它会自动分成2个区域,但我需要确定和一些解释。感谢大家的回答。 最佳答案 让我们首先讨论一下预拆分。仅当我们知道键的分布时才推荐使用,否则如果数据中存在任何偏差,预拆分可能会导致数据负载不均匀。这是Hbase用于自动和可配置的表分片的一般性质。从ClouderaHbase站点引用:-无论是否使用预分割,当一个区域达到一定限度时,它会自动分

hadoop - Apache Nutch 在限制后刷新 gora 记录

我已经为Nutch2.3.1配置了Hadoop/Hbase生态系统。我没有更改gora.buffer.read.limit和gora.buffer.read.limit,即在这两种情况下都使用它们的默认值10000。在生成阶段,我将topN设置为100,000。在生成作业期间,我得到以下信息org.apache.gora.mapreduce.GoraRecordWriter:Flushingthedatastoreafter60000records工作完成后,我发现有100,000个url被标记为已提取,我想成为。但我很困惑上面的警告显示了什么?gora.buffer.read.lim

apache-spark - 执行 hbase 扫描时出现异常

我正在尝试hbasesparkdistributedscanexample.我的简单代码如下所示:publicclassDistributedHBaseScanToRddDemo{publicstaticvoidmain(String[]args){JavaSparkContextjsc=getJavaSparkContext("hbasetable1");ConfigurationhbaseConf=getHbaseConf(0,"","");JavaHBaseContextjavaHbaseContext=newJavaHBaseContext(jsc,hbaseConf);Sca