草庐IT

HbaseStorage

全部标签

hadoop - PIG 中是否有 HBaseStorage 的替代方案

我在pig脚本中使用带有-caching选项的HBaseStorage,如下所示HBaseStorage('countDetails:ansCountcountDetails:divCountcountDetails:unansCountcountDetails:engCountcountDetails:ineffCountcountDetails:totalCount','-caching1000');我可以看到这反射(reflect)在我的job.xml中但我可以看到它没有时间差异我正在处理1000万条记录并将大约160mb的数据存储到HBase中。当我将结果存储在hdfs中时,处

mongodb - 哪种 NoSQL 技术可以替代 MOLAP 多维数据集进行即时查询?

我想知道您是否可以告诉我在我的场景中应该使用哪种NoSQL数据库或技术/工具。我们正在考虑用开源技术替换我们基于SQLServer分析服务的OLAP多维数据集,因为数据变得太大而无法管理,查询返回的时间也太长。我们遵循了书中的每条规则来分片数据,通过使用聚合和分区等优化多维数据集的设计,但我们的一些非重复计数查询仍然需要1-2分钟:(我们的事实表的数据大小大约是250GB。并且有10-12个维度以星型模式连接。因此,我们决定尝试使用Hadoop/HBase/NoSQL数据库等开源技术,看看它们是否可以通过最少的设置和入门来解决我们的OLAP场景。我们对新技术的主要要求是对于非重复计数查

hadoop - Pig HbaseStorage 自定义

如何为pig脚本自定义HbaseStorage?实际上我想在将数据加载到pig脚本之前对数据执行一些业务逻辑。它类似于HbaseStorage之上的自定义存储。例如,我的行键具有类似A_B_C的结构。目前,我在我的pig脚本中传递HbaseStorage中的A_B_C键,但我想在将输入数据提供给实际的pig脚本之前针对A_B_C_D等键执行一些逻辑,如过滤等。怎么可能 最佳答案 您可能不得不查看HBaseStoragejava类并基于它实现您自己的类。根据HBaseStorage和相关类的编写方式,这可能很容易(只需扩展HBaseS

hadoop - PIG - HBASE - HBaseStorage key 过滤器(gt,lt)

在PIG脚本中,我使用HBaseStorage从HBase表加载所有行。但是,我想通过行键过滤行。我查看了源代码,我可以通过构造函数发送-gt&-lt。但是,我不知道如何将我的值传递给构造函数。它是一个字节[]...这里是我所在的地方:LOAD'hbase://TABLE'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('CF:I','-casterHBaseBinaryConverter')AS(product_id:bytearray);如果可能,请提供示例代码... 最佳答案

hadoop - 如何使用 Pig 和 HBaseStorage 存储到 HBase

在HBaseshell中,我通过以下方式创建了我的表:create'pig_table','cf'在Pig中,这是我希望存储到pig_table中的别名的结果:DUMPB;生成包含6个字段的元组:(D1|30|2014-01-0113:00,D1,30,7.0,2014-01-0113:00,DEF)(D1|30|2014-01-0122:00,D1,30,1.0,2014-01-0122:00,JKL)(D10|20|2014-01-0111:00,D10,20,4.0,2014-01-0111:00,PQR)...第一个字段是第二个、第三个和第五个字段的串联,将用作HBaserow