草庐IT

hadoop - HBase shell "OutOfOrderScannerNextException"扫描器和计数调用错误

无论是我运行扫描命令还是计数,都会弹出此错误并且错误消息对我来说没有意义。它说什么以及如何解决它?org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException:ExpectednextCallSeq:1ButthenextCallSeqgotfromclient:0;request=scanner_id:788number_of_rows:100close_scanner:falsenext_call_seq:0命令:计数'表',5000扫描'table',{COLUMN=>['cf:cq'],FILTER=>"Va

hadoop - 使用 pyspark 流式传输到 HBase

网上有大量关于使用Scala使用Spark流批量加载到HBase的信息(thesetwo特别有用)和一些关于Java的信息,但似乎缺乏相关信息与PySpark。所以我的问题是:如何使用PySpark将数据批量加载到HBase?大多数示例在任何语言中都只显示每行被更新的一列。如何在每行中插入多列?我目前的代码如下:if__name__=="__main__":context=SparkContext(appName="PythonHBaseBulkLoader")streamingContext=StreamingContext(context,5)stream=streamingCon

hadoop - Hbase 区域服务器

我们已经安装了hadoop集群。我们想在它上面使用HBase。我的hbase-site.xml在下面hbase.rootdirhdfs://ali:54310/hbaseThedirectorysharedbyRegionServers.hbase.cluster.distributedtruehbase.zookeeper.quorumali,reg_server1Thedirectorysharedbyregionservers.dfs.replication1我有2个区域服务器ali和reg_server1。当我在http://ali:60010打开页面时我看到服务器reg_se

使用Java API的HBase长比较过滤器

我无法比较我的HBase表的列值之一中的长度值。我正在使用JavaAPI。以下是代码段。我显然在表中有一个满足过滤器的值。我还想知道什么是词典比较,以及如何进行长时间的比较。这一方面的任何方向非常有帮助。提前致谢FilterListlist=newFilterList(FilterList.Operator.MUST_PASS_ALL);SingleColumnValueFilterfil=newSingleColumnValueFilter(CF1_BYTE,VALUE_BYTE,CompareOp.LESS,newBinaryComparator(Bytes.toBytes(50)));S

python - 传输异常

我正在尝试导入happybase但在连接时收到以下错误消息。我有Hadoop伪节点集群和Hbase已经在运行。安装的组件版本如下,Hadoop版本-1.0.4Hbase版本-0.94.4happybase-0.4有人可以查看下面的异常(exception)情况并让我知道是否有任何节俭特定设置或修复此问题的任何指导。谢谢。Python2.6.1(r261:67515,Jun242010,21:47:49) [GCC4.2.1(AppleInc.build5646)]ondarwinType"help","copyright","credits"or"license"formoreinfo

hadoop - MRUnit - 没有按预期工作

我只有一个映射器类,它创建用于批量加载到HBase的文件,并且我编写了一个MRUnit用于单元测试。虽然预期结果和重试结果相同,但MRUnit失败并显示消息“缺少预期输出”。预期输出:(4b657931,{"totalColumns":1,"families":{"default":[{"timestamp":9223372036854775807,"qualifier":"default","vlen":6}]},"row":"Key1"})实际输出:(4b657931,{"totalColumns":1,"families":{"default":[{"timestamp":922

java - HBase:原子 'check row does not exist and create' 操作

我认为这应该是一种常见情况,但可能是我在谷歌搜索时使用了错误的关键字。我只需要用完全随机的键创建新的表记录。假设我获得了具有良好随机性(几乎随机)的key。但是我不能100%确定还没有行存在。所以我需要自动执行的操作:使用行键检查尚无行存在。如果行存在则拒绝操作。如果不退出则创建行。我找到的关于此主题的最有用的信息是关于HBaserowlocks.的文章我认为HBase行锁是合适的解决方案,但我想在没有显式行锁定的情况下做得更好。ICV看起来不合适,因为我确实希望key是随机的。如果CAS可以处理“行不存在”的情况,那会很棒,但看起来他们做不到。显式行锁有一些缺点,例如区域拆分问题。有

sql-server - 为什么 Hive 不支持存储过程?

为什么hive不支持存储过程?如果它不支持那么我们将如何处理Hive中的Sp?有任何替代解决方案吗?(因为我们已经在mssql中有一个数据库)HBASE呢?支持SP吗? 最佳答案 首先,Hadoop或Hive不是SQLDB的替代品。您绝不能考虑将这2个中的任何一个用作RDBMS的替代品。Hive的开发只是为了在现有Hadoop集群之上提供仓储功能,考虑到大量的SQL用户,包括专家数据库设计人员和管理员,以及使用SQL从其数据仓库中提取信息的临时用户.尽管它为您提供了类似SQL的界面,但它不是SQL数据库。Hive最适合数据仓库应用程

hadoop - 将数据从一个 hbase 表复制到另一个

我创建了一个表hivetest,它还在hbase中创建了名为“hbasetest”的表。现在我想将“hbasetest”数据复制到另一个具有相同模式的hbase表(比如logdata)中。那么,任何人都可以帮助我如何在不使用配置单元的情况下将数据从“hbasetest”复制到“logdata”。CREATETABLEhivetest(cookiestring,timespentstring,pageviewsstring,visitstring,logdatestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler

hadoop - HBase 如何在整个集群中分配来自 MapReduce 的新区域?

我的情况如下:我有一个20节点的Hadoop/HBase集群和3个ZooKeepers。我通过MapReduce对从HBase表到其他HBase表的数据进行了大量处理。现在,如果我创建一个新表,并告诉任何作业使用该表作为输出接收器,它的所有数据都会进入同一个区域服务器。如果只有几个区域,这不会让我感到惊讶。我有一个特定的表有大约450个区域,现在问题来了:这些区域中的大部分(大约80%)都在同一个区域服务器上!我现在想知道HBase如何在整个集群中分配新区域,以及这种行为是正常/期望的还是错误。不幸的是,我不知道从哪里开始查找代码中的错误。我问的原因是这会使作业变得异常缓慢。只有当作业