草庐IT

HBase-Hive

全部标签

performance - Hive 查询卡在执行中间

同事们,我在配置单元中使用sql脚本执行bash文件时遇到问题-它总是卡在同一个地方map=100%,reduce=67%我尝试使用具有不同变体和其他调整特性的映射器和缩减器数量:SEThive.exec.parallel=true;SEThive.default.fileformat=RCFILE;SEThive.stats.autogather=false;SEThive.exec.compress.output=true;SETmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;SET

hadoop - 使用 sqoop 将数据从 Hive 导出到 rdbms 时如何处理主键

这是我的场景,我在配置单元仓库中有一个数据,我想将此数据导出到mysql中名为“测试”数据库的“示例”表中。如果一列是sample.test中的主键,并且hive中的数据(我们正在导出)在该键下有重复值,那么作业显然会失败,那么我该如何处理这种情况?提前致谢 最佳答案 如果你希望你的mysql表只包含重复项中的最后一行,你可以使用以下内容:sqoopexport--connectjdbc:mysql:///test-tablesample--usernameroot-P--export-dir/user/hive/warehouse

sql - 使用 PARTITION BY (HIVE) 时如何过滤掉组中的重复元素

假设我有下表(动物):**Color****Species****Weight**WhiteDog20WhiteDog8WhiteDog33BlackDog55BrownDog80WhiteCat10BlackCat14WhiteCat9我想按物种分组,过滤每个物种内的独特颜色,并为每个过滤组找到两种最亮的动物。生成的表格应如下所示:**Color****Species****Weight**WhiteDog8BlackDog55WhiteCat9BlackCat14我正在使用以下查询(我知道这是不正确的):SELECTcolor,species,weightFROM(SELECTsp

sql - 通过选择在 Hive 中插入值

我正在尝试在配置单元列中插入某些派生值,并想知道为什么它不起作用。我的代码如下。Insertintomonthasselectmonth(datestamp)asmonthfromgc_1;此处month列已存在,其中包含NULL值,gc_1是表名。我不确定是否可以使用month、date等函数从另一列添加到hive中。 最佳答案 从你的问题来看,我认为你正在努力实现以下目标:有一个名为gc_1的表,其中已经存在一个名为datestamp的列,它可能包含一个日期适合作为month函数参数的字符串。然后您想在gc_1中创建一个名为mo

json - 使用 Hive 向 Hbase 中插入数据(JSON 文件)

我已经使用hive在hbase中创建了一个表:hive>CREATETABLEhbase_table_emp(idint,namestring,rolestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:name,cf1:role")TBLPROPERTIES("hbase.table.name"="emp");并创建了另一个表来加载数据:hive>createtabletestemp(idint,na

hadoop - HBase mapReduce TableOutputFormat如何使用Flush和WAL

因此,当从使用TableOutputFormat的MapReduce作业写入HBase时,它​​多久写入一次HBase。我不认为它会为每一行执行一个put命令。在MapReduce中使用时如何控制AutoFlush和WriteAheadLog(WAL)? 最佳答案 TableOutputFormat禁用AutoFlush并使用在hbase.client.write.buffer指定的写入缓冲区(默认为2MB),一旦缓冲区已满,它会自动刷新到HBase。您可以通过将属性添加到作业配置来更改它:config.set("hbase.cli

hadoop - HBase 未连接到 ZooKeeper

我正在努力让我的HBaseshell运行。它在主题行中抛出上述异常。我检查过hbase-site.xml与hadoop完美匹配。请帮忙。我挣扎了2天,有一个项目到期。我附上hadoop和hbase的两个xml文件。hbase-site.xmlhbase.rootdirhdfs://localhost:54310/hbasehbase.zookeeper.property.dataDir/home/hduser/zookeeperhbase.zookeeper.property.clientPort2222PropertyfromZooKeeper'sconfigzoo.cfg.Thep

mysql - Hive-1.1.0 在将数据插入创建的表时显示错误(使用 hadoop-2.5.1)

我成功地创建了表:CREATETABLEmovie_example(titleSTRING,idBIGINT,directorSTRING,yearBIGINT,genresARRAY)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','COLLECTIONITEMSTERMINATEDBY'$'MAPKEYSTERMINATEDBY'#'LINESTERMINATEDBY'\n'STOREDASTEXTFILE;当我尝试使用以下方法向该表中插入数据时:LOADDATALOCALINPATH'//hiveExample.txt'OVERWRITEINTOTAB

hadoop - HIVE:UDF 错误失败:找不到类 <ClassName>

我正在尝试使用myjar.jar作为HIVE中的UDF函数,如下所示,echo"Addmyjar.jar"$HIVE_HOME/bin/hive-e"ADDJAR/gpfs/user/username/HIVE/myjar.jar;"echo"Listmyjar.jar,thisisshowinglocaldirectorypath"$HIVE_HOME/bin/hive-e"listjar;"$HIVE_HOME/bin/hive-e"dropfunctionifexistsmyfunction;"echo"Createtemporaryfunction,myclassnameisU

java - 为什么HBase RowKey、ColumnKey和value是二进制值(字节),而不是String?

HBase值由4个键索引:TableName、RowKey,列键,时间戳。地点:TableName是一个字符串RowKey和ColumnKey是二进制值(Java类型byte[])Timestamp是一个64位整数(Java类型long)value是一个未解释的字节数组(Java™类型byte[])二进制数据以Base64编码以通过网络传输。为什么键和值使用字节而不是字符串存储? 最佳答案 因为您可能需要在限定符和值中存储二进制数据。例如,我们有这样的前缀限定符:'prefix[binaryint64id]'并将序列化的protob