hbase-shell

hadoop - hbase复制和快照命令之间的区别

我在hbase中有一个表，其中包含大量数据，我想取回表的背面，所以在这种情况下这很好1--复制命令对表进行备份2--对该表进行快照另外请说明一下snapshot的内部机制是不是简单的重命名表？问候阿米特最佳答案 snapshotisbest.HBase快照允许您拍摄表的快照，而不会对区域服务器产生太大影响。快照、克隆和恢复操作不涉及数据复制。此外，将快照导出到另一个集群不会对区域服务器产生影响。在0.94.6版本之前，备份或克隆表的唯一方法是使用CopyTable/ExportTable，或者在禁用表后复制HDFS中的所有hfil

hadoop - hive 到 Hbase : wrong use case for Spark?

我最近遇到了一个关于将数据从Hive迁移到Hbase的问题。我们项目在cdh5.5.1集群上使用Spark(7个节点在SUSELinuxEnterprise上运行，具有48个内核，每个256GBRAM，hadoop2.6)。作为初学者，我认为使用Spark从Hive加载表数据是个好主意。我正在使用正确的Hive列/HbaseColumnFamily和列映射在HBase中插入数据。我找到了一些关于如何将数据批量插入Hbase的解决方案，例如我们可以使用hbaseContext.bulkPut或rdd.saveAsHadoopDataset(我测试了两者的结果相似).结果是一个功能正常的程

hadoop Hbase section field apache-spark hive

hadoop - 如何使用 mapreduce 从 hbase SequenceFile 中提取键值对？

我使用HbaseExport实用工具将hbase表作为SequenceFile导出到HDFS。现在我想使用mapreduce作业来处理这个文件:publicclassMapSequencefile{publicstaticclassMyMapperextendsMapper{@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Mapper.Contextcontext)throwsIOException,InterruptedException{System.out.println(key+"...."+value);}}public

SequenceFile mapreduce code apache hadoop hbase

hadoop - 在 hbase 中导入导出表时找不到文件异常

我正在运行这个命令"hbaseorg.apache.hadoop.hbase.mapreduce.Driverexport'temp'/dump"但我遇到异常实际上我必须导出表并导入到不同的数据库中。2016-06-1517:56:49,365WARN[main]util.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2016-06-1517:56:49,463INFO[main]mapreduce.Export:vers

中导 hadoop java apache hbase

scala - 使用 Oozie 将 Spark 转为 Hbase

我试图从Spark在Hbase中创建一个表并插入数据，从中读取数据。当我从命令行运行spark作业时它工作正常。但是，每次我尝试使用oozie运行它时，它都会抛出不同类型的异常。这是我的sparkhbase代码valsc=newSparkContext("local","Hbasespark")valtableName="Morbidity_Dummy2"valconf=HBaseConfiguration.create()//AddlocalHBaseconfconf.addResource(newPath("file:///opt/cloudera/....../hbase-sit

转为 scala hbase 34 apache hadoop apache-spark oozie

hadoop - HBase 预拆分和最大区域大小

我无法找到问题的答案:我想预拆分HBase表，例如在5个地区。我已将配置中的最大文件大小设置为10GB。(当然只是例子)。如果我将所有5个区域都填满表怎么办？HBase会为此创建第6个区域吗？我发现它会自动分成2个区域，但我需要确定和一些解释。感谢大家的回答。最佳答案让我们首先讨论一下预拆分。仅当我们知道键的分布时才推荐使用，否则如果数据中存在任何偏差，预拆分可能会导致数据负载不均匀。这是Hbase用于自动和可配置的表分片的一般性质。从ClouderaHbase站点引用:-无论是否使用预分割，当一个区域达到一定限度时，它会自动分

hadoop HBase section HTableDescriptor apache-hbase-region-splitting-and bigdata cloudera-cdh

shell - Oozie 电子邮件操作截断包含换行符的字符串

我从shell操作中捕获了这个输出:SHELL_OUTPUT='John,28,1,0Jack,32,0,15Mary,45,23,12Jill,33,12,55'电子邮件操作在正文中使用捕获的输出，如下所示:Data:${wf:actionData('shell-c23f')['SHELL_OUTPUT']}但是收到的邮件似乎被截断了，只发送了第一行而不是完整的字符串，例如:Data:John,28,1,0如何确保完整的字符串是电子邮件正文的一部分？谢谢! 最佳答案操作输出被视为和解析为序列化的java.util.Propert

换行符 shell section code pre hadoop oozie hue oozie-workflow

apache-spark - 执行 hbase 扫描时出现异常

我正在尝试hbasesparkdistributedscanexample.我的简单代码如下所示:publicclassDistributedHBaseScanToRddDemo{publicstaticvoidmain(String[]args){JavaSparkContextjsc=getJavaSparkContext("hbasetable1");ConfigurationhbaseConf=getHbaseConf(0,"","");JavaHBaseContextjavaHbaseContext=newJavaHBaseContext(jsc,hbaseConf);Sca

时出 apache-spark apache hbase hadoop apache-zookeeper

scala - 如何从 spark-shell 从 S3 文件加载 RDD？

我在S3中有一个文本文件，我想使用spark-shell将其加载到RDD中。我已经下载Spark2.3.0forHadoop.天真地，我希望我只需要设置hadoop设置就可以了。valinFile="s3a://some/path"valaccessKey="some-access-key"valsecretKey="some-secret-key"sc.hadoopConfiguration.set("fs.s3a.access.key",accessKey)sc.hadoopConfiguration.set("fs.s3a.secret.key",secretKey)sc.tex

spark-shell scala code hadoop spark apache-spark amazon-s3

apache-spark - spark 谓词下推不适用于 phoenix hbase 表

我正在处理spark-hive-hbase集成。这里使用phoenixhbase表进行集成。Phoenix:**apache-phoenix-4.14**HBase:**hbase-1.4**spark:**spark-2.3**hive:**1.2.1**我正在使用sparkthrift服务器并使用jdbc访问表。我测试的几乎所有基本功能都运行良好。但是当我从spark提交查询时，它会在没有where条件的情况下提交给phoenix并且所有过滤都发生在spark端。如果表有数十亿的数据，我们就不能这样做。示例:Input-query:select*fromhive_hbasewher

spark apache-spark section strong hadoop hive hbase apache-phoenix

72 73 747576 77 78