草庐IT

scala - 大量插入到 HBase

我在尝试向HBase插入数据时遇到问题。我有一个包含2个字段的1200万行SparkDataFrame:*KEY,amd5hash*MATCH,aboolean("1"or"0")我需要将它存储在一个HBase表中,KEY是行键,MATCH是列。我创建了一个在rowkey上拆分的表:create'GTH_TEST','GTH_TEST',{SPLITS=>['10000000000000000000000000000000','20000000000000000000000000000000','30000000000000000000000000000000','4000000000

hadoop - HBase表批量加载详细步骤

我是HBase的新手。有人可以为我提供有关如何在HBase表中完成批量加载的详细示例。例如,我有一个包含10列和10万行的客户文件。我想将文件加载到HBase表中。我创建了一个由HIVE管理的HBase表,并尝试使用LOAD命令加载它,但失败了。看来我只能从HBase插入表。hive(Koushik)>CREATETABLEhive_hbase_emp_sample(eidint,enamestring,esaldouble)>STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'>WITHSERDEPROPERTIES>(

hadoop - 如何创建指向 hbase 表的具有复杂数据类型的外部配置单元表?

我有一个包含列族(姓名、联系人)和列、姓名(字符串)、年龄(字符串)、工作街(字符串)、工作城市(字符串)、工作状态(字符串)的hbase表。我想创建一个外部配置单元表,它指向带有以下列的这个hbase表。姓名(字符串)、年龄(字符串)、地址(结构)。CREATEEXTERNALTABLEhiveTable(idINT,nameSTRING,ageSTRING,addressSTRUCT)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping

hadoop - Apache Storm Hbase 版本兼容性,java.lang.NoSuchFieldError : HBASE_CLIENT_PREFETCH_LIMIT

我正在运行以下Storm设置(在Ubuntu16.464位上)。Storm:0.10.1Hadoop:2.5.2(本地伪集群)Hbase:1.1.5(本地伪集群)jar的编译器:maven通过导入函数使用默认的hbasestorm支持类:org.apache.storm.hbase.bolt.HbaseBolt和mapper.SimpleHBaseMapper。我正在尝试使用“Hbase”bolt写入Hbase数据库。在此过程中出现以下错误:016-07-3021:06:14.874b.s.util[ERROR]Asyncloopdied!java.lang.NoSuchFieldEr

hadoop - 使用 hbase-server 时出现 NoSuchMethodError

为了使用TableMapper,我将hbase-server依赖项包含到我的hadoop项目中。hbase-shaded-client和hbase-server都是1.1.2版本。但是在尝试运行hadoop作业时,出现了一个似乎与安全相关的错误:FATAL[main]org.apache.hadoop.mapreduce.v2.app.MRAppMaster:ErrorstartingMRAppMasterjava.lang.NoSuchMethodError:org.apache.hadoop.security.authentication.server.Authentication

hadoop - 在启用 kerberos 的 CDH 集群中添加 Hbase 服务

我有一个CDH集群已经在使用kerberos身份验证运行。我需要将HBase服务添加到正在运行的集群。自启用kerberos以来,正在寻找启用hbase服务的文档。欢迎使用命令行和GUI选项。还有,如果有像这样的小建表步骤那样的测试方法就好了。提前致谢! 最佳答案 如果您通过ClouderaManager-AddService向导添加它,CDH会自动处理(创建/分发Kerberoskey表并添加服务) 关于hadoop-在启用kerberos的CDH集群中添加Hbase服务,我们在Sta

hadoop - 批量加载键值对数据到HBASE

我正在评估HBASE以处理每行列数可变的非常宽的数据集。在其原始形式中,我的数据有一个变量列表,其中包含每行的参数名称和值。在转换后的形式中,它以键值对形式提供。我想将此数据加载到HBASE中。将我的键值对处理数据转换为单独的“put”语句以获取数据非常容易。但是我需要批量加载,因为我有数千列和数百万行,导致数十亿个单独的键值对,需要数十亿个“put”语句。此外,列的列表(a、b、c、d、...)并不是提前完全知道的。到目前为止,我调查了以下选项:importtsv:无法使用,因为这需要提前将数据从行转换为列,并导入一组固定的已知列。HIVE生成HFile:此选项也需要提前指定列名,并

hadoop - 为 HDFS 目录中的文件创建 HBase 表

我正在尝试将HDFS目录中的所有文件数据加载到HBase现有表中。您能分享我如何将所有文件数据和增量数据加载到HBase表中吗?我将HBase表创建为hbase>create'sample','cf'我要复制hdfs://ip:port/user/test进入示例hbase表。请给我建议任何解决方案。 最佳答案 答案1:(可能)ImportTSV,如果您尝试仅提供/user/hadoop/目录路径而不是完整的文件路径,它应该处理该目录中的所有文件。答案2:(好像不可能)ThespecialcolumnnameHBASE_ROW_KE

shell - 如何在HBase shell中使用describe 'table_name'创建表。

我必须在不同的集群中创建一个表,我只有hbase表的描述很方便。我如何在不同的集群中创建新的hbase表? 最佳答案 输入Hbaseshell进入hbaseshell在你的新集群的终端,然后给出命令create‘’,’’给你表名和列族名,你已经从describe'tablename'来自之前的集群。更多信息:https://www.tutorialspoint.com/hbase/hbase_create_table.htmhttps://www.tutorialspoint.com/hbase/hbase_describe_and

java - Sqoop HBase 导入 : java. lang.NoSuchMethodError : org. apache.hadoop.hbase.HTableDescriptor.addFamily

我在Ubuntu14.04上将Hadoop作为伪分布式集群运行。我也安装了HBase,一切正常。现在我想使用Sqoop的“导入”命令将数据从我本地的MySql服务器导入到HBaseHadoop版本:2.7.3HBase版本:1.2.4Sqoop版本:1.4.6(Hadoop2.0.4-alpha)Hadoop和HBase工作正常没有问题,但是运行命令./sqoopimport--connectjdbc:mysql://localhost:3306/company--tablepeople--usernamemysqluser-P--hbase-tablepeople_import--c