hbase-unsecure

hadoop - 无法使用 importtsv 将数据从 Hdfs 导入到 Hbase

我将制表符分隔的文件移动到hdfs，现在正试图将它移动到hbase。下面是我的importtsv命令bin/hbaseorg.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.columns=HBASE_ROW_KEY,cf:ok,cf:ek,cf:rk,cf:rsk,cf:pdk,cf:pmk,cf:omk,cf:sok,cf:sdk,cf:cdk,cf:q,cf:uc,cf:up,cf:usp,cf:gm,cf:st,cf:gp-Dimporttsv.skip.bad.lines=false'sales_fact'hdfs://l

hadoop - HBase 表上的 Hive 表显示整数列为 NULL

我正在尝试在Hbase表上创建Hive表。详情如下:HBase表的数据如下:Connectedto:Phoenix(version4.7)Driver:PhoenixEmbeddedDriver(version4.7)Autocommitstatus:trueTransactionisolation:TRANSACTION_READ_COMMITTEDBuildinglistoftablesandcolumnsfortab-completion(setfastconnecttotruetoskip)...1341/1341(100%)DoneDonesqllineversion1.1.

列为 hadoop FIELD strong section hive hbase

java - Hbase 映射减少 : how to use custom class as value for the mapper and/or reducer?

我正在尝试熟悉Hadoop/HbaseMapReduce作业，以便能够正确编写它们。现在我有一个Hbase实例，其中包含一个名为dns的表，其中包含一些DNS记录。我试图制作一个简单的唯一域计数器来输出文件并且它有效。现在，我只使用IntWritable或Text，我想知道是否可以为我的Mapper/Reducer使用自定义对象。我试着自己做，但我得到了Error:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapre

reducer custom code MapTask IntWritable java hadoop mapreduce hbase

nosql - 从 HBASE 数据返回聚合

我有一个约15万行的HBASE表，每行包含3700列。我需要一次选择多行，然后汇总结果，例如:行[1][列1]+行[2][列1]...+行[n][列1]行[1][列2]+行[2][列2]...+行[n][列2]...行[1][列]+行[2][列]...+行[n][列]我可以使用扫描仪来完成，我认为问题是，扫描仪就像一个游标，它不会同时在多台机器上执行分布的工作，而是从一个区域获取数据，然后跳到另一个区域获取下一组数据，等等，我的结果跨越多个区域。有没有办法以分布式方式进行扫描(一个选项，或者为每个区域的数据值(value)创建多个扫描器[这本身可能就是一堆蠕虫])或者这是必须在map中

nosql HBASE section 多行 stackoverflow hadoop

java - 如何使用 Hadoop/Hbase 实现网络搜索？

如何使用Hadoop/Hbase实现网络搜索。任何人都可以提供一些指南或教程来帮助我入门吗？最佳答案这篇文章是关于map-Reduce的，它给出了一些使用map-reduce实现信息检索原理的例子。http://labs.google.com/papers/mapreduce.html您可能还想查看开源信息检索系统ApacheLucene和ApacheSolr 关于java-如何使用Hadoop/Hbase实现网络搜索？，我们在StackOverflow上找到一个类似的问题：

Hadoop Hbase section stackoverflow noreferrer java mapreduce

performance - 平衡 HDFS -> HBase mapreduce 作业的想法

对于客户，我一直在研究在AWSEC2上运行Cloudera风格的hadoop集群的短期可行性。在大多数情况下，结果是预期的，逻辑卷的性能大多不可靠，也就是说尽我所能让集群在这种情况下运行得相当好。昨晚我对他们的导入程序脚本进行了全面测试，以从指定的HDFS路径中提取数据并将其推送到Hbase。他们的数据有些不同寻常，因为记录小于1KB，并且被压缩到9MB的gzipblock中。总共有大约50万条文本记录从gzip中提取出来，经过完整性检查，然后推送到reducer阶段。作业在环境的预期范围内运行(溢出记录的数量是我预料到的)但是一个非常奇怪的问题是当作业运行时，它使用8个reducer

performance mapreduce reducer section 的 configuration hadoop hbase

hadoop - 使用 HBase 进行分析

我几乎是HBase的新手。我想采用基于MySQL的当前站点跟踪并将其放入HBase，因为MySQL根本无法再扩展。我完全迷失了第一步......我需要跟踪用户的不同操作，并且需要能够按某些方面(日期、他们来自的国家/地区、他们执行操作时使用的产品等)汇总它们我目前存储它的方式是，我有一个包含所有这些方面(国家/地区、日期、产品...)的复合PK的表格，其余字段是操作的计数器。当一个Action被执行时，我将它插入到表中，将Action的列递增一个(ONDUPLICATEKEYUPDATE...)。*date|*country|*product|visited|liked|put_to_

hadoop HBase section 的 analytics

graph - 将多个顺序 HBase 查询的结果传递给 Mapreduce 作业

我有一个HBase数据库，它存储有向图的邻接表，每个方向的边存储在一对列族中，其中每一行表示一个顶点。我正在编写一个mapreduce作业，它将所有节点作为其输入，这些节点也具有从相同顶点指向的边，因为具有指向其他顶点(指定为查询的主题)的边。这有点难以解释，但在下图中，当查询顶点“A”时，作为输入的节点集将是{A，B，C}，因为它们都具有来自顶点的边'1':为了在HBase中执行此查询，我首先在产生{1}的反向边列族中查找边为“A”的顶点，然后，对于该集合中的每个元素，从该元素中查找边为“A”的顶点该集合的前向边缘列族。这应该会产生一组键值对:{1:{A,B,C}}。现在，我想获取这

Mapreduce 传递射器 section 的 graph hadoop hbase

java - 用于 Web 分析的 Hadoop-Hive-HBase 建议

我工作的团队很幸运，管理层认识到提高我们技能和学习新技术的必要性。因此，每当我们在主要项目之间有一点停工时间时，我们都被鼓励利用这段时间来扩展我们的思维并学习新的东西。我们经常作为一个团队来处理一个大型研究项目，这样每个人都可以从知识中受益。例如，我们构建了一个符合规范的Kerberos身份验证服务器，以熟悉协议(protocol)的来龙去脉。我们编写了自己的网络服务器，以了解网络应用程序的高效设计策略。最近，我们对Map-Reduce非常好奇，特别是Hadoop和各种支持组件(HBase、HDFS、Pig、Hive等)。为了更多地了解它，我们想编写一个网络分析服务。它将使用Javas

Hadoop-Hive-HBase Hadoop 的 Hive section java analytics hbase

hadoop - 当 hive 由 hbase 支持时，是否支持所有 hive 查询？

我主要对GROUPBY、HAVING、AVG、PERCENTILE等聚合函数感兴趣。如果没有，是否有其他替代方案？最佳答案 https://cwiki.apache.org/Hive/languagemanual-udf.html是Hive中可用的UDF和函数的最终列表。关于hadoop-当hive由hbase支持时，是否支持所有hive查询？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/qu

hive hadoop section https languagemanual-udf hbase

122 123 124125126 127 128