草庐IT

HBASE_CLASSPATH

全部标签

hadoop - pig - 从远程 hbase 服务器读取/写入数据

我想通过pig脚本从hbase远程服务器读取/写入数据。我们正在使用HortonworksHDP2.5以下是场景。我们有两个集群,一个用于Hive,一个用于Hbase。我们可以访问作为Hive集群一部分的边缘节点。我们的代码(MapReduce作业和Pig脚本)将在Hive集群上执行。作为要求的一部分,我们还必须从Hbase表中读取/写入数据。我们在网上找到了一种解决方案,但它不起作用。http://grokbase.com/t/cloudera/cdh-user/137at5cg72/pig-stores-into-remote-hbase此解决方案建议在我们的pig脚本中注册hba

hadoop - 如何将现有的 Hbase 数据迁移到新集群

我有一个存储超过10TB数据的Hbase集群,现在我必须将这些数据迁移到一个新的集群中,我该怎么做?我知道Hbase备份有完全关闭备份(Distcp)和实时集群备份(Replication、Export和CopyTable)。在我的例子中,我们不能容忍我们的Hbase集群定期完全关闭,而且我知道复制不能复制历史数据,所以这意味着我们只能使用Export或CopyTable吗?我有两个问题:1.我们应该使用Export还是CopyTable或其他?为什么?2.如果我们使用Export或CopyTable,由于集群已经启动,在复制过程中存在编辑遗漏的风险,如何避免?

java - HBase读取: To improve on performance ,如何使用hbase java REST api批量处理get请求

我是HBaseRESTAPI的新手,我正在尝试寻找一种方法,我可以通过get命令获得一组Id的结果。由于批处理有助于提高我的代码的性能,而不是为表的每个ID发出获取请求。一些示例Hbasejavarestapi代码会有所帮助。提前致谢。 最佳答案 Result[]results=table.get(Listgets)做你正在寻找的。您应该会看到显着的性能改进。如果你只想知道键是否存在:boolean[]exists=exists(Listgets);它甚至可以比get更快,因为它只返回true或false。

java - 找不到值类 : 'org.apache.hadoop.hbase.client.Result' 的序列化程序

我正在尝试从HBase中读取数据并将其保存为sequenceFile,但是得到java.io.IOException:CouldnotfindaserializerfortheValueclass:'org.apache.hadoop.hbase.client.Result'.Pleaseensurethattheconfiguration'io.serializations'isproperlyconfigured,ifyou'reusingcustomserialization.错误。我看到了两个相似的帖子:hadoopwritablesNotSerializableExcepti

python - 从 REST API 获取数据并将其存储在 HDFS/HBase 中

我是大数据的新手。我了解到HDFS更多的是存储结构化数据,HBase更多的是存储非结构化数据。我有一个RESTAPI,我需要在其中获取数据并将其加载到数据仓库(HDFS/HBase)中。数据为JSON格式。那么将数据加载到哪个更好呢?HDFS还是HBase?你也可以请你指导我一些教程来做到这一点。我遇到了关于TutorialwithStreamingData的问题.但我不确定这是否适合我的用例。如果你能指导我使用特定的资源/技术来解决这个问题,那将是非常有帮助的。 最佳答案 有几个问题你要思考您想使用批处理文件还是流媒体?这取决于请

hadoop - 如何使用 Hbase 1.2.6 编译 Nutch 2.3.1

我必须使用Nutch2.3.1设置hadoop堆栈。hadoop2.7.4支持的Hbase版本是1.2.6,我已经配置并测试成功。但是当我编译Nutch时,我得到了关注并抓取了一个示例页面,我得到了这个错误。/usr/local/nutch/runtime/local/bin/nutchinjecturls/-crawlIdkicsInjectorJob:startingat2017-09-2114:20:10InjectorJob:InjectingurlDir:urlsExceptioninthread"main"java.lang.NoSuchFieldError:HBASE_C

hadoop - 为什么 HBase 支持的 Hive 表使用 MapReduce

我在我的项目中使用Hbase支持的Hive表,但我们选择Hbase支持的Hive的原因是为了执行更新。除此之外,Hbase支持的Hive表还有哪些其他优点。因为它在从Hive查询时仍然使用MapReduce。即使我们需要少量数据并且由于表很大,也需要时间来给出结果。但是,如果我们在Hbaseshell上执行带范围扫描或仅在Hbase中获取结果,则只需几分之一秒。那么除了更新(现在在HIVE中也可用)和SQL易用性之外,使用Hbase支持的Hive表还有哪些其他优势。如果HIVE由Hbase支持,它如何评估和运行查询?为什么它使用MapReduce扫描并给出结果而不是更快的Hbase引擎

scala - 由 : java. lang.ClassNotFoundException : org. apache.hadoop.hbase.HBaseConfiguration 引起

我正在尝试在Hbase上(在指定的集群上)创建一个表,我尝试了以下代码:importorg.apache.hadoop.hbase.client.{HTable,Put,HBaseAdmin}importorg.apache.hadoop.hbase.util.Bytesimportorg.apache.hadoop.hbase.mapreduce.TableInputFormatimportorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor,HColumnDescriptor}objectImportData{va

java - 如何仅使用它们的键来获取 HBase 行?

我有一个非常基础的问题,但我是HBase的新手。我想仅使用行键获取一行(例如[]byte)。我正在查看Get对象,但构造函数需要整行:https://hbase.apache.org/apidocs/org/apache/hadoop/hbase/client/Get.html它表示“要获取一行的所有内容,请使用要获取的行实例化一个Get对象。要进一步缩小要获取的内容的范围,请使用以下方法。”更具体地说,我正在尝试使用HRegionLocator.getStartEndKeys()的输出来获取整行。 最佳答案 您可以为此使用org.

hadoop - 如何查找hbase表的创建日期

有没有办法找到HBase表的创建日期或时间戳。我们有desc在Hive这将提供表创建信息。我很好奇有没有什么HBase命令可以获取元数据信息?describe'table'不提供任何时间或日期信息。 最佳答案 Hbase数据位于HDFS中,没有直接的方法可以做到这一点。检查hbase.rootdir并运行hadoopfs-ls-R|grepyourtable查看何时创建或修改(时间戳)。 关于hadoop-如何查找hbase表的创建日期,我们在StackOverflow上找到一个类似的问