hbase

hadoop - hbase崩溃后数据如何存储到primary

我是HBase的新手。假设我们有主区域和次区域。假设我们的主要区域由于某些外部因素而停机了几个小时。如果主服务器恢复正常状态。它可能错过了主要区域离线期间加载的一些数据。那么主服务器将如何同步以加载丢失的作业。提前致谢! 最佳答案如果主要区域服务器崩溃或变得不可用，次要区域服务器将提供对数据的只读访问。主要区域服务器提供写入/读取访问权限，但次要区域服务器仅提供读取访问权限。Seethis关于数据恢复，数据在实际写入之前写入WAL(Write-Ahread-Log)，当区域服务器恢复时所有挂起的日志将被重播并且节点将同步。

primary hadoop section 次要 stackoverflow hbase hadoop-partitioning

hadoop - 具有本地目录输入和 HBase 输出的脚本化 MapReduce

有时我想执行一些简单的轻量级MapReduce。“简单”意味着它使用非常简单的算法，而“轻量级”意味着我可以用一些脚本语言(或类似的东西)用几行来实现它。我当前的任务是从本地文件系统目录中的文件中获取数据，进行最少的处理，然后将其写入HBase。HadoopStreaming可以从本地文件系统读取。但是它不能写入HBase。hadoop-hbase-streaming项目声明了这样的功能。不幸的是我无法让它工作。我猜，这是因为最后一次提交库存储是在2008年。我的任务看起来很常见，我想知道为什么hadoop-hbase-streaming库自2008年以来没有任何更新。我想，现在有一些

MapReduce hadoop section HBase hadoop-streaming

sql - 如何借助 Phoenix 命令行工具将 csv 文件插入 HBase 数据库？

Hereisanexample:example.sqlCREATETABLEIFNOTEXISTSexample(QUESTION_NOBIGINTNOTNULL,TECHNOLOGYVARCHAR(40),SESSIONVARCHAR(40),QUESTIONVARCHAR(5000),OPTION_AVARCHAR(400),OPTION_BVARCHAR(400),OPTION_CVARCHAR(400),OPTION_DVARCHAR(400),ANSWERVARCHAR(5)CONSTRAINTPKPRIMARYKEY(QUESTION_NO));我的csv文件包含:exam

Phoenix HBase section VARCHAR example sql hadoop apache-phoenix

java - 在 java 中使用 phoenix 连接到 hbase 的正确 URL

我已经在伪分布式模式下设置了Hbase，并在上面安装了Phoenix。我可以使用sqlline.pylocalhost连接到Phoenix，并且可以毫无错误地使用它。然后我尝试使用以下命令通过Java连接到PhoenixConnectioncon=DriverManager.getConnection("jdbc:phoenix:[zookeeper]");作为apache常见问题解答。然后我用我的VM的IP地址替换了[zookeeper]，在该VM上设置了hbase和Phoenix，但它没有连接..我的zoo.cfg只包含基本属性:tickTime=2000dataDir=/home

java phoenix code section zookeeper hadoop hbase apache-zookeeper apache-phoenix

file - 如何将Hbase数据复制到本地文件系统(外接硬盘)

我想备份hdfs中的hbase数据。我有一个外部驱动器(USB硬盘)。如何将数据从hbase复制到我的驱动器。我使用了像这样的命令bin/hbaseorg.apache.hadoop.mapreduce.Drive导出表/media/.../mydrive.但实际完成的是，在hdfs中创建了一个路径为/media/.../mydrive的新目录，并且没有任何内容保存在我的外部硬盘中。为什么是这个问题。除了我在上面使用的命令之外，有没有办法通知数据应该保存在我的外部驱动程序中。请回复最佳答案如果数据在hdfs中，您可以使用以下命令

Hbase file section hadoop hdfs

hadoop - java.lang.ClassCastException : org. apache.hadoop.hbase.client.Result 无法转换为 org.apache.hadoop.hbase.client.Mutation

将值从一个hbase表转移到另一个时出错INFOmapreduce.Job:TaskId:attempt_1410946588060_0019_r_000000_2,Status:FAILEDError:java.lang.ClassCastException:org.apache.hadoop.hbase.client.Resultcannotbecasttoorg.apache.hadoop.hbase.client.Mutationatorg.apache.hadoop.hbase.mapreduce.TableOutputFormat$TableRecordWriter.wri

hadoop apache java mapreduce hbase

hadoop - nutch查看存储在hbase中的hbase数据的方法

我正在使用apachenutch将数据存储在使用hdfs作为其文件系统的hbase中。我想知道它在hbase等中存储了哪些文档。如何从hbase中读取该数据，例如一些pdf存储在hbase中。我想读它。我会怎么做。请指导我？最佳答案网页和文档存储为一行。如果您知道您的文档链接，您可以在hbaseshell或其他工具(hivepig等)上获取它。Nutch将URL存储为反向URL。例如“http://bar.foo.com:8983/to/index.html?a=b”变成“com.foo.bar:8983:http/to/ind

hbase hadoop section http hdfs nutch

azure - 使用 ImportTsv 在 Azure 的 HBase 中加载文件时出错

尝试使用推荐的方法在MicrosoftAzure云中的HDInsight中运行的HBase中加载tsv文件，通过远程桌面连接并在命令行上运行尝试将t1.tsv文件(具有两个制表符分隔的列)从hdfs加载到hbaset1table:C:\apps\dist\hbase-0.98.0.2.1.5.0-2057-hadoop2\bin>hbaseorg.apache.hadoop.hbase.mapreduce.ImportTsv-Dimporttsv.columns=HBASE_ROW_KEY,numt1t1.tsv并得到:错误:除了行键和时间戳(可选)之外，还需要一列或多列用法:impo

时出中加 section hbase HBASE_ROW_KEY azure hadoop azure-hdinsight

hadoop - Hive 显示的行数少于 HBase

我在HBase数据源上创建了一个Hive表，并将数据(CSV文件)从S3导入到该表中。这是在AWSEMR上运行的。我已经用几行验证了这一点，没问题。但是，当我导入一个合理的数据集(1000万行)时，我发现Hive给我的计数与HBase给我的计数不一致。如果我在HBase中进行计数，我会得到1000万的结果。如果我在Hive中进行计数，我得到的结果是9,932,183。我已经编写了一个查询来暴力比较导入的数据与源S3数据，但是即使在中等规模的集群上执行也需要大量时间。与此同时，寻找可能导致这种差异的可能性和想法。我应该指出，我会把自己归类为这个部门的菜鸟。最

少于 hadoop section 中进 HBase amazon-web-services hive

sql - 像普通 sql 一样查询 hbase

我知道Hbase不像普通的SQL。但是有可能像这样查询Hbase吗？selectrow-keyfromTablewherecf:first="ram"andcf:middle="leela"andcf:last="ban";//ram(firstname)leela(middlename)ban(lastname) 最佳答案有两种方法:使用ApachePhoenix(推荐)。它是HBase的强大SQL包装器。使用ApacheHive。Hive可以使用HiveQL创建“外部表”:CREATEEXTERNALTABLEemployee

sql hbase section code 34 hadoop

86 87 888990 91 92