草庐IT

c# - 保持连接事件以从 .csv 文件读取批量数据

我有一个包含200万条记录的.csv文件,我的目标是将其写入hbase数据库。代码:try{using(FileStreamreader=File.OpenRead(@"C:\Data.csv"))using(TextFieldParserparser=newTextFieldParser(reader)){parser.TrimWhiteSpace=true;//ifyouwantparser.Delimiters=new[]{""};parser.HasFieldsEnclosedInQuotes=true;while(!parser.EndOfData){//Processthe

rest - 使用 Hbase REST API

我正在为我的用例研究HbaseRESTAPI。我在Hbase集群之外的机器上有一个JSON文件(没有安装hbase客户端)。要求是将文件放在具有以下列的Hbase表中。Rec_IdFile_IdMeggaseTimestampFile_Id:这将是文件名消息:包含JSON文件的内容是否可以使用HbaseRestAPI执行此操作?如果不是,还有什么其他解决方案。请将我指向任何好的链接请帮忙 最佳答案 您可以使用this链接以了解HBase和RESTcleint,例如创建表、添加和获取行。这一切都是关于从jason字段到Hbase列限定

linux - YCSB 不适用于 HBase

我在我的Linux服务器上使用hadoop-2.7.1、hbase-1.0.1.1和zookeeper-3.4.6来比较HBase的性能。我的Hadoop、HBase、ZooKeeper在以下过程中运行良好:19639数据节点19893次要节点20116资源管理器20530QuorumPeerMain20287节点管理器23767客户端20838HMaster21015HRegionServer24620日元19446名称节点此外,YCSB也工作正常。我已经使用BasicDb命令“./bin/ycsbloadbasic-Pworkloads/workloada”进行了检查。但是,当我尝

hadoop - 从 MapReduce 同时批量加载到多个 HBase 表

类似于MultiTableOutputFormat,您可以使用put写入多个HBase表。是否有一种内置方法可以生成多个HFile而无需多次循环输入? 最佳答案 This是最接近您的要求。他们也给出了代码来处理多种输出格式。再来一个here.希望对您有所帮助 关于hadoop-从MapReduce同时批量加载到多个HBase表,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/317

HBase 例行灾备方案:快照备份与还原演练

博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧二维码进入京东手机购书页面。该方案是为某用户定制的HBase灾备方案,方案本身具有很好的适用性,可以复用于常规HBase灾备场景。用户对HBase的灾备工作非常重视,每周会对HBase进行一次全量备份,将快照上传至S3保存,同时,在消息队列和其他数据库中保存着两周以内的增量数据,当HBase宕机时,会先还原快照

hadoop - 我尝试启动 HBase

我尝试运行start-hbase.sh。但是……dream@dream-VirtualBox:/usr/local/hbase/bin$cat~/.bashrc|tail-n2exportPATH=$PATH:/usr/local/hadoop/sbin/:/usr/local/hadoop/bin/:/usr/local/hbase/bin/:/usr/local/mahout/bin/exportJAVA_HOME=/usr/lib/jvm/java-7-oracledream@dream-VirtualBox:/usr/local/hbase/bin$source~/.bashr

hadoop - Tableau、Hadoop 和 Birt

我试图将数据从SQL数据库迁移到Hadoop。我已经通过配置Hive、HBase和Hadoop成功地做到了这一点。我的问题是,我将Birt&Tableau与我的SQL数据库一起使用,并且能够在5-10分钟内加载1000万条数据,但我新配置的Hadoop、Hive和HBase系统需要大约50分钟才能获取1000万条条目.我怎样才能提高这种性能?Hadoop是专门为海量数据处理而开发的,为什么我做不到?性能有什么特殊配置吗? 最佳答案 经过大量研究并为了回答这个问题,我也通过了HDP。然后我遇到一个场景,我们无法比较SQLDb和Hado

hadoop - OpenTSDB 与 kerberized HBase 集成

我想在OpenTSDB上做一些POC。我已经按照安装说明安装了OpenTSDB,但启动起来很困难。我正在使用启用了Kerberos的HDP环境,我正在将OpenTSDB与KerberizedHBase集成,但面临以下异常。如果有人将OpenTSDB与KerberosHBase集成,请指导..异常(exception):2017-06-0714:07:14,254INFO[main-SendThread(ZKIP1:2181)]ClientCnxn:OpeningsocketconnectiontoserverZKIP1/192.xxx.xxx.xxx:2181.Willnotattem

hadoop - 无法使用 phoenix jdbc 驱动程序连接到 hbase(无法获取位置错误)

我正在使用phoenix(4.10.0-Hbase-1.2)开发hbase(1.2.6)。我收到此错误:org.apache.hadoop.hbase.client.RetriesExhaustedException:Can'tgetthelocationserror下面是我尝试使用phoenix连接到hbase的代码:Connectionconnection=DriverManager.getConnection("jdbc:phoenix:localhost");下面是我的hdfs-site.xml文件,我做了一些更改:我需要做什么改变?请建议.. 最佳

java - 由于不可序列化的对象,Spark 作业失败

我正在运行一个spark作业来为我的HBase数据存储生成HFiles。它曾经在我的Cloudera集群上运行良好,但是当我们切换到EMR集群时,它失败并显示以下堆栈跟踪:Serializationstack:-objectnotserializable(class:org.apache.hadoop.hbase.io.ImmutableBytesWritable,value:5031363132373033345f493635383431353835);notretryingSerializationstack:-objectnotserializable(class:org.apa