草庐IT

hadoop - 我应该使用 PIG 从 HIVE 将数据加载到 HBase 还是有更好的方法?

我必须将数据从HIVE加载到HBase表中。我知道有多种方法可以做到这一点,例如:从HIVE生成CSV,然后使用批量加载将其转换为HFile以加载数据使用MapReduce生成HFile使用PIG脚本生成并加载HFile或者是否有可用的直接转换器?您能否通过推荐最佳方法来指导我?我们没有在这个用例中使用phoenix。 最佳答案 您可以使用HBASEintegration:CREATETABLEhbase_table_1(keyint,valuestring)STOREDBY'org.apache.hadoop.hive.hbase

hadoop - 无法从 hive 加载 hbase 表中的数据

我使用的是hadoop版本2.7.0,hive版本1.1.0,HBase版本hbase-0.98.14-hadoop2。我已经成功地从hive创建了一个hbase表。hive(Koushik)>CREATETABLEhive_hbase_emp_test(eidint,enamestring,esaldouble)>STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'>WITHSERDEPROPERTIES>("hbase.columns.mapping"=":key,cfstr:enm,cfsal:esl")>TBLPR

hadoop - Hive - 根据某些关键字段选择唯一行

我正在使用Hive1.2.1并希望根据empid选择唯一的行empidempnamedept101aaaadept1101aaaadept2102bbbbdept1103ccccdept2我尝试使用相关子查询,但那不起作用selectempid,empname,dept(selectcount(*)fromempt2wheret2.empid=t1.empid)asrow_numberfromempt1whererow_number=1orderbyempid;有没有办法根据某些关键字段选择唯一值?需要你的帮助..预期的输出是empidempnamedept101aaaadept110

hadoop - 启动新安装的 Hive/Hadoop 时出错

我刚刚安装了CDH5.4。我在启动Hive时收到以下消息。来自ClouderaManager的消息:Canarytestfailedtocreatefileindirectory/tmp/.cloudera_health_monitoring_canary_files.来自服务器的消息:原因:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException):无法创建目录/tmp/hive/hdfs/5502ca90-629f-4c7e-afd5-dada9535

python - 如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中?

我已经下载了一个大约2GB的百万歌曲数据集的子集。但是,数据被分解为文件夹和子文件夹。在子文件夹中,它们都是几个“H5文件”格式。我知道它可以使用Python读取。但我不知道如何提取并加载到HDFS中,以便我可以在Pig中运行一些数据分析。我是否将它们提取为CSV并加载到Hbase或Hive?如果有人能指出我正确的资源,那将会有所帮助。 最佳答案 如果它已经在CSV或linux文件系统上的任何格式中,PIG可以理解,只需执行hadoopfs-copyFromLocal即可如果您想在HDFS上使用Python读取/处理原始H5文件格式

hadoop - sqoop-导出分区的Hive表

我有一个按year和week列分区的Hive表。因此内容存储在Hive仓库的多个递归目录中,在我的例子中,我有超过100个目录(分区)用于此表。在这里,我不确定如何将hive表的目录详细信息提及到sqoop-export命令的--export-dir属性。我是否必须在单独的sqoop-export命令中单独提及所有100*目录?有没有办法在单个sqoop-export命令中提及所有嵌套目录?请告诉我是否还有其他更好的方法来解决这个问题?[注意:我的环境中没有Hcatalog,我只想将“导出到hdfs目录”作为我的最后一个选项] 最佳答案

hadoop - HIVE:在 HDFS 中分区后创建空桶

我正在尝试使用HIVE创建分区和存储桶。设置一些属性:sethive.enforce.bucketing=true;SEThive.exec.dynamic.partition=true;SEThive.exec.dynamic.partition.mode=nonstrict;下面是创建表的代码:CREATETABLEtransactions_production(idstring,deptstring,categorystring,companystring,brandstring,date1string,productsizeint,productmeasurestring,pu

hadoop - Hive,分区表的分桶

这是我的脚本:--tablewithoutpartitiondroptableifexistsufodata;createtableufodata(sightedstring,reportedstring,citystring,shapestring,durationstring,descriptionstring)rowformatdelimitedfieldsterminatedby'\t'Location'/mapreduce/hive/ufo';--loadmydatainufodataloaddatalocalinpath'/home/training/downloads/u

json - 使用 get_json_object 在 HIVE 中创建 View 后查询性能?

Hiveget_json_object函数是否解析每个JSON对象以进行字段解析,即使我们在JSON数据之上创建View之后也是如此?我们在使用SERDE读取JSON数据时遇到问题。出于这个原因,我们想使用这个udf并在数据之上创建View。问题是担心将来使用此路径查询数据可能会很慢。如果在Hive表之上创建View将在创建View时只解析一次数据,这将很有帮助。Hive是否支持这个?Hive专家对此有何想法? 最佳答案 我相信Hive确实支持观点。不过,如果您担心它的速度,您可以加载impala。它使用与hive相同的元数据和表,

sql - 在 Hive 中查找 ASCII 值的总和

我是Spark和Hive的新手。我想计算Hive表中“名称”列中ASCII值的总和。所以在Hive中,它有ascii()内置函数,但它只返回第一个字符的值。Hive是否提供了循环遍历name中所有字符的函数? 最佳答案 与其在hiveql中编写循环,不如将表创建为外部表。然后直接循环遍历特定列,将其转换为ascii。您仍然可以使用hiveql查询新的ascii列。并使用java/python修改文件中的数据。这就是hive和读取模式的美妙之处。 关于sql-在Hive中查找ASCII值的