$hive

hadoop - 我应该使用 PIG 从 HIVE 将数据加载到 HBase 还是有更好的方法？

我必须将数据从HIVE加载到HBase表中。我知道有多种方法可以做到这一点，例如:从HIVE生成CSV，然后使用批量加载将其转换为HFile以加载数据使用MapReduce生成HFile使用PIG脚本生成并加载HFile或者是否有可用的直接转换器？您能否通过推荐最佳方法来指导我？我们没有在这个用例中使用phoenix。最佳答案您可以使用HBASEintegration:CREATETABLEhbase_table_1(keyint,valuestring)STOREDBY'org.apache.hadoop.hive.hbase

hadoop HBase section 34 mapreduce hive apache-pig

hadoop - 无法从 hive 加载 hbase 表中的数据

我使用的是hadoop版本2.7.0，hive版本1.1.0，HBase版本hbase-0.98.14-hadoop2。我已经成功地从hive创建了一个hbase表。hive(Koushik)>CREATETABLEhive_hbase_emp_test(eidint,enamestring,esaldouble)>STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'>WITHSERDEPROPERTIES>("hbase.columns.mapping"=":key,cfstr:enm,cfsal:esl")>TBLPR

hadoop hbase jar java hive

hadoop - Hive - 根据某些关键字段选择唯一行

我正在使用Hive1.2.1并希望根据empid选择唯一的行empidempnamedept101aaaadept1101aaaadept2102bbbbdept1103ccccdept2我尝试使用相关子查询，但那不起作用selectempid,empname,dept(selectcount(*)fromempt2wheret2.empid=t1.empid)asrow_numberfromempt1whererow_number=1orderbyempid;有没有办法根据某些关键字段选择唯一值？需要你的帮助..预期的输出是empidempnamedept101aaaadept110

关键 hadoop dept empid section hive

hadoop - 启动新安装的 Hive/Hadoop 时出错

我刚刚安装了CDH5.4。我在启动Hive时收到以下消息。来自ClouderaManager的消息:Canarytestfailedtocreatefileindirectory/tmp/.cloudera_health_monitoring_canary_files.来自服务器的消息:原因:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException):无法创建目录/tmp/hive/hdfs/5502ca90-629f-4c7e-afd5-dada9535

时出 hadoop section strong cloudera cloudera-cdh

python - 如何将百万歌曲数据集等大数据集加载到 BigData HDFS 或 Hbase 或 Hive 中？

我已经下载了一个大约2GB的百万歌曲数据集的子集。但是，数据被分解为文件夹和子文件夹。在子文件夹中，它们都是几个“H5文件”格式。我知道它可以使用Python读取。但我不知道如何提取并加载到HDFS中，以便我可以在Pig中运行一些数据分析。我是否将它们提取为CSV并加载到Hbase或Hive？如果有人能指出我正确的资源，那将会有所帮助。最佳答案如果它已经在CSV或linux文件系统上的任何格式中，PIG可以理解，只需执行hadoopfs-copyFromLocal即可如果您想在HDFS上使用Python读取/处理原始H5文件格式

大数 BigData section 中运 Python hadoop hive hbase

hadoop - sqoop-导出分区的Hive表

我有一个按year和week列分区的Hive表。因此内容存储在Hive仓库的多个递归目录中，在我的例子中，我有超过100个目录(分区)用于此表。在这里，我不确定如何将hive表的目录详细信息提及到sqoop-export命令的--export-dir属性。我是否必须在单独的sqoop-export命令中单独提及所有100*目录？有没有办法在单个sqoop-export命令中提及所有嵌套目录？请告诉我是否还有其他更好的方法来解决这个问题？[注意:我的环境中没有Hcatalog，我只想将“导出到hdfs目录”作为我的最后一个选项] 最佳答案

hadoop sqoop code section export hive

hadoop - HIVE:在 HDFS 中分区后创建空桶

我正在尝试使用HIVE创建分区和存储桶。设置一些属性:sethive.enforce.bucketing=true;SEThive.exec.dynamic.partition=true;SEThive.exec.dynamic.partition.mode=nonstrict;下面是创建表的代码:CREATETABLEtransactions_production(idstring,deptstring,categorystring,companystring,brandstring,date1string,productsizeint,productmeasurestring,pu

中分 hadoop section string code hive bigdata hadoop-partitioning

hadoop - Hive，分区表的分桶

这是我的脚本:--tablewithoutpartitiondroptableifexistsufodata;createtableufodata(sightedstring,reportedstring,citystring,shapestring,durationstring,descriptionstring)rowformatdelimitedfieldsterminatedby'\t'Location'/mapreduce/hive/ufo';--loadmydatainufodataloaddatalocalinpath'/home/training/downloads/u

hadoop Hive string section partition bucket

json - 使用 get_json_object 在 HIVE 中创建 View 后查询性能？

Hiveget_json_object函数是否解析每个JSON对象以进行字段解析，即使我们在JSON数据之上创建View之后也是如此？我们在使用SERDE读取JSON数据时遇到问题。出于这个原因，我们想使用这个udf并在数据之上创建View。问题是担心将来使用此路径查询数据可能会很慢。如果在Hive表之上创建View将在创建View时只解析一次数据，这将很有帮助。Hive是否支持这个？Hive专家对此有何想法？最佳答案我相信Hive确实支持观点。不过，如果您担心它的速度，您可以加载impala。它使用与hive相同的元数据和表，

中创 json section Hive View hadoop cloudera hortonworks-data-platform

sql - 在 Hive 中查找 ASCII 值的总和

我是Spark和Hive的新手。我想计算Hive表中“名称”列中ASCII值的总和。所以在Hive中，它有ascii()内置函数，但它只返回第一个字符的值。Hive是否提供了循环遍历name中所有字符的函数？最佳答案与其在hiveql中编写循环，不如将表创建为外部表。然后直接循环遍历特定列，将其转换为ascii。您仍然可以使用hiveql查询新的ascii列。并使用java/python修改文件中的数据。这就是hive和读取模式的美妙之处。关于sql-在Hive中查找ASCII值的

ASCII Hive section stackoverflow sql hadoop hiveql

187 188 189190191 192 193