HBASE_CLASSPATH

hadoop - pig - 从远程 hbase 服务器读取/写入数据

我想通过pig脚本从hbase远程服务器读取/写入数据。我们正在使用HortonworksHDP2.5以下是场景。我们有两个集群，一个用于Hive，一个用于Hbase。我们可以访问作为Hive集群一部分的边缘节点。我们的代码(MapReduce作业和Pig脚本)将在Hive集群上执行。作为要求的一部分，我们还必须从Hbase表中读取/写入数据。我们在网上找到了一种解决方案，但它不起作用。http://grokbase.com/t/cloudera/cdh-user/137at5cg72/pig-stores-into-remote-hbase此解决方案建议在我们的pig脚本中注册hba

hadoop - 如何将现有的 Hbase 数据迁移到新集群

我有一个存储超过10TB数据的Hbase集群，现在我必须将这些数据迁移到一个新的集群中，我该怎么做？我知道Hbase备份有完全关闭备份(Distcp)和实时集群备份(Replication、Export和CopyTable)。在我的例子中，我们不能容忍我们的Hbase集群定期完全关闭，而且我知道复制不能复制历史数据，所以这意味着我们只能使用Export或CopyTable吗？我有两个问题:1.我们应该使用Export还是CopyTable或其他？为什么？2.如果我们使用Export或CopyTable，由于集群已经启动，在复制过程中存在编辑遗漏的风险，如何避免？

新集 hadoop section CopyTable strong hbase hdfs

java - HBase读取: To improve on performance ,如何使用hbase java REST api批量处理get请求

我是HBaseRESTAPI的新手，我正在尝试寻找一种方法，我可以通过get命令获得一组Id的结果。由于批处理有助于提高我的代码的性能，而不是为表的每个ID发出获取请求。一些示例Hbasejavarestapi代码会有所帮助。提前致谢。最佳答案 Result[]results=table.get(Listgets)做你正在寻找的。您应该会看到显着的性能改进。如果你只想知道键是否存在:boolean[]exists=exists(Listgets);它甚至可以比get更快，因为它只返回true或false。

java performance section code stackoverflow hadoop hbase batch-processing

java - 找不到值类 : 'org.apache.hadoop.hbase.client.Result' 的序列化程序

我正在尝试从HBase中读取数据并将其保存为sequenceFile，但是得到java.io.IOException:CouldnotfindaserializerfortheValueclass:'org.apache.hadoop.hbase.client.Result'.Pleaseensurethattheconfiguration'io.serializations'isproperlyconfigured,ifyou'reusingcustomserialization.错误。我看到了两个相似的帖子:hadoopwritablesNotSerializableExcepti

amp Result apache SequenceFile hadoop java apache-spark serialization hbase

python - 从 REST API 获取数据并将其存储在 HDFS/HBase 中

我是大数据的新手。我了解到HDFS更多的是存储结构化数据，HBase更多的是存储非结构化数据。我有一个RESTAPI，我需要在其中获取数据并将其加载到数据仓库(HDFS/HBase)中。数据为JSON格式。那么将数据加载到哪个更好呢？HDFS还是HBase？你也可以请你指导我一些教程来做到这一点。我遇到了关于TutorialwithStreamingData的问题.但我不确定这是否适合我的用例。如果你能指导我使用特定的资源/技术来解决这个问题，那将是非常有帮助的。最佳答案有几个问题你要思考您想使用批处理文件还是流媒体？这取决于请

并将 python strong section 大数 scala rest hadoop hdfs

hadoop - 如何使用 Hbase 1.2.6 编译 Nutch 2.3.1

我必须使用Nutch2.3.1设置hadoop堆栈。hadoop2.7.4支持的Hbase版本是1.2.6，我已经配置并测试成功。但是当我编译Nutch时，我得到了关注并抓取了一个示例页面，我得到了这个错误。/usr/local/nutch/runtime/local/bin/nutchinjecturls/-crawlIdkicsInjectorJob:startingat2017-09-2114:20:10InjectorJob:InjectingurlDir:urlsExceptioninthread"main"java.lang.NoSuchFieldError:HBASE_C

hadoop Hbase apache InjectorJob org nutch gora

hadoop - 为什么 HBase 支持的 Hive 表使用 MapReduce

我在我的项目中使用Hbase支持的Hive表，但我们选择Hbase支持的Hive的原因是为了执行更新。除此之外，Hbase支持的Hive表还有哪些其他优点。因为它在从Hive查询时仍然使用MapReduce。即使我们需要少量数据并且由于表很大，也需要时间来给出结果。但是，如果我们在Hbaseshell上执行带范围扫描或仅在Hbase中获取结果，则只需几分之一秒。那么除了更新(现在在HIVE中也可用)和SQL易用性之外，使用Hbase支持的Hive表还有哪些其他优势。如果HIVE由Hbase支持，它如何评估和运行查询？为什么它使用MapReduce扫描并给出结果而不是更快的Hbase引擎

MapReduce hadoop Hbase section Hive

scala - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.hbase.HBaseConfiguration 引起

我正在尝试在Hbase上(在指定的集群上)创建一个表，我尝试了以下代码:importorg.apache.hadoop.hbase.client.{HTable,Put,HBaseAdmin}importorg.apache.hadoop.hbase.util.Bytesimportorg.apache.hadoop.hbase.mapreduce.TableInputFormatimportorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor,HColumnDescriptor}objectImportData{va

ClassNotFoundException HBaseConfiguration hbase java scala hadoop apache-spark hue

java - 如何仅使用它们的键来获取 HBase 行？

我有一个非常基础的问题，但我是HBase的新手。我想仅使用行键获取一行(例如[]byte)。我正在查看Get对象，但构造函数需要整行:https://hbase.apache.org/apidocs/org/apache/hadoop/hbase/client/Get.html它表示“要获取一行的所有内容，请使用要获取的行实例化一个Get对象。要进一步缩小要获取的内容的范围，请使用以下方法。”更具体地说，我正在尝试使用HRegionLocator.getStartEndKeys()的输出来获取整行。最佳答案您可以为此使用org.

HBase java code section apache hadoop

hadoop - 如何查找hbase表的创建日期

有没有办法找到HBase表的创建日期或时间戳。我们有desc在Hive这将提供表创建信息。我很好奇有没有什么HBase命令可以获取元数据信息？describe'table'不提供任何时间或日期信息。最佳答案 Hbase数据位于HDFS中，没有直接的方法可以做到这一点。检查hbase.rootdir并运行hadoopfs-ls-R|grepyourtable查看何时创建或修改(时间戳)。关于hadoop-如何查找hbase表的创建日期，我们在StackOverflow上找到一个类似的问

hadoop hbase section code stackoverflow bigdata

116 117 118119120 121 122