草庐IT

hbase-write

全部标签

hadoop - Hbase 中的日志结构化合并树

我正在研究Hbase。我对Hbase如何使用LSM按排序顺序存储数据有疑问。据我了解,Hbase在大规模数据处理中使用LSMTree进行数据传输。当数据来自客户端时,它首先按顺序存储在内存中,然后排序并存储为B-Tree作为存储文件。比它将存储文件与磁盘B树(关键)合并。这是正确的吗?我错过了什么吗?如果是,则在集群环境中。有多个接受客户端请求的RegionServer。在那种情况下,(每个区域服务器的)所有Hlog如何与磁盘B树合并(作为现有key分布在所有数据节点磁盘上)?是不是像Hlog一样只是合并同一个regionServer的Hfile的数据? 最

java - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/hbase/HBaseConfiguration 中的异常

我正在使用Hadoop1.0.3和HBase0.94.22。我正在尝试运行映射器程序以从Hbase表中读取值并将它们输出到文件中。我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/hbase/HBaseConfigurationatjava.lang.Class.forName0(NativeMethod)atjava.lang.Class.forName(Class.java:340)atorg.apache.hadoop.util.RunJar.main(RunJar.ja

hadoop - Hbase - 如何获取表中的列名?

我有一些包含数百万行但只有几列的HBase表。我想提取每个表的列名并将其存储在一个单独的文件中。做这个的最好方式是什么?谢谢。 最佳答案 这应该将列名称保存在本地(而不是hdfs)的Hbase_table_columns.txt文件中:echo"scan'table_name'"|$HBASE_HOME/bin/hbaseshell|awk-F'=''{print$2}'|awk-F':''{print$1}'>Hbase_table_columns.txt这应该在控制台上保存列名:echo"scan'table_name'"|$H

hadoop - hbase 命名空间/表数据存储在 hdfs 上的什么位置?

hbase在哪里存储命名空间/表的数据文件?我找到了这篇文章:HowHbasewriteitsdataandwhere但我需要一个完整的路径位置,只是为了将权限分离到不同的命名空间。在Hive中,文件位于hive_warehouse_path/database/table/partition中,我正在寻找相同的文件,但在Hbase中。你能帮忙吗?问候帕维尔编辑:顺便说一下,我发现了一个关于HBase文件结构的有趣幻灯片:http://www.slideshare.net/enissoz/hbase-and-hdfs-understanding-filesystem-usage

java - Oozie Java 操作 : Passing Hbase classpath

我正在通过ooziejava操作运行测试hbasejava程序。遇到以下错误:FailingOozieLauncher,Mainclass[HbaseTest],main()threwexception,org/apache/hadoop/hbase/HBaseConfigurationjava.lang.NoClassDefFoundError:org/apache/hadoop/hbase/HBaseConfigurationatHbaseTest.main(HbaseTest.java:28)atsun.reflect.NativeMethodAccessorImpl.invok

java - Spark 异常 : Task failed while writing rows

我正在读取文本文件并将它们转换为parquet文件。我正在使用Spark代码来做这件事。但是当我尝试运行代码时出现以下异常org.apache.spark.SparkException:Jobabortedduetostagefailure:Task2instage1.0failed4times,mostrecentfailure:Losttask2.3instage1.0(TID9,XXXX.XXX.XXX.local):org.apache.spark.SparkException:Taskfailedwhilewritingrows.atorg.apache.spark.sql.

hadoop - Hbase 与 Cassandra : Which is better for a timeseries data storage?

我使用我的API日志提取如下信息:这段时间内我的API有多少用户?或者在这段时间里,什么类型的服务被调用最多?我提取的几乎所有信息都取决于时间戳。实际上,我使用MongoDB并将时间戳添加为索引(对于80GB,索引大小为12GB)。有人向我推荐迁移到cassandra或Hbase。我想知道哪个更适合我的用例:时间序列数据分析。需要良好的写入和读取性能。可以使用hadoop进行数据分析。感谢您分享您的观点或经验。 最佳答案 Cassandra的优势:Cassandra通常表现出更好的性能(尽管两者都非常出色)。从操作的角度来看,Cas

java - 如何对 Java Hbase API 进行单元测试

我正在使用JavaHBaseAPI从Hbase获取值。这是我的代码。publicclassGetViewFromHbaseBoltextendsBaseBasicBolt{privateHTabletable;privateStringzkQuorum;privateStringzkClientPort;privateStringtableName;publicGetViewFromHbaseBolt(Stringtable,StringzkQuorum,StringzkClientPort){this.tableName=table;this.zkQuorum=zkQuorum;th

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json,推断模式,然后将其作为parquet再次写出到s3(s3a)。出于某种原因,在运行的写入部分进行了大约三分之一的过程中,spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足;没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好,它具有非常相似的结构,但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件,这似乎不是问题。我已经解压缩并单独读取每个文件,没有错误。这

hadoop - OLAP CUBE可以在HBase中做吗?

有什么方法可以用它在HBase或OLAP中创建CUBEDIMENSIONS吗?我想使用我的HBASE或HIVE创建CUBEDIMENSIONS类型的应用程序并将其与SSAS连接以用于报告目的,这可能吗?如果是这样,请通过一些链接和代码指导我。我已经尝试在配置单元中创建多维数据集View,我想知道这是否可以通过HBase实现。谢谢... 最佳答案 很有可能。事实上,最近已经进行了多次尝试。参见HBase-Lattice和urbanairshipdatacube,例如。您可能还会找到这个presentation很有帮助,它讨论了HBas