HIVE

hadoop - DataStax Enterprise 3.2-Hive S3 NoSuchBucket

我正在运行启用了分析的DSE3.2.4。我正在尝试将我的一张表卸载到S3中以进行长期存储。我在配置单元中创建了下表:CREATEEXTERNALTABLEevents_archive(event_idstring,timestring,typestring,sourcestring,valuestring)PARTITIONEDBY(yearstring,monthstring,daystring,hourstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION's3n://com.mydomain.events/';然后我尝试使用

hadoop - yarn 上的 Apache Hive

根据我对博客的理解，Yarn(mapred2)比hadoop的mapreduce更快或更智能。如果它是真的，有没有办法配置Hive以使用Yarn/Mapred2而没有任何复杂性来提高性能或增加资源利用率？最佳答案 Hive在Yarn的开箱即用映射上运行。但是在Yarn上运行一个旧的Hive不会是惊天动地的体验，你可能会测量相同的时间。您想要的是获得最新的Hive开发和改进(例如ORCandVectorization)，也许尝试运行HiveonTez.我建议阅读Stinger并检查这个deploymentguide.

hadoop Apache section noreferrer noopener hive hadoop-yarn

xml - 可以将 HCatalog 与 XML 一起使用吗？ -- 在 Cloudera VM 上执行 ETL

我正在处理一个大数据类的项目，我已经在本地安装了ClouderaQuickstartVM以在我的数据集上运行一些基本任务并熟悉一些工具。我正在学习一个教程，其中涉及将数据集移动到HDFS，基于数据集文件创建一个HCatalog表，然后在该表上运行Hive和/或Pig命令。问题是我的数据是一个大的XML文件，HCatalog中的标准分隔符选项不适用。有没有办法将XML导入HCatalog？如果不是，在我的XML数据集上使用Hive或Pig的最佳方法是什么？编辑:我的文件来自公共(public)StackOverflow数据集。我正在使用posts.xml文件。它非常大(25GB)，我无法

HCatalog Cloudera gt lt item xml hadoop hive

java - hive在哪里运行以及JVM的作用

我有点怀疑。我一直在阅读有关HIVE的内容。我脑子里有以下问题WhetherHIVErunsonjavavirtualmachine(JVM)?我用谷歌搜索但找不到任何答案。谁能给我解释一下最佳答案是的。所有Hive组件都是运行在JVM上的Java代码。这包括HiveServer、HiveServer2、Metastore、HiveCLI、查询处理，几乎所有内容。出于所有实际目的，没有JVM就无法运行Java代码。关于java-hive在哪里运行以及JVM的作用，我们在StackO

java hive section stackoverflow 查询处 hadoop jvm

arrays - 如何在 Hive 的数组中搜索项目？

我使用Hive创建了一个包含以下字段的表:IDBIGINT，MSISDN字符串，DAYTINYINT,MONTHTINYINT，年份，性别TINYINT，RELATIONSHIPSTATUSTINYINT,教育字符串，LIKES_AND_PREFERENCES字符串这是通过以下SQL命令填充数据的:Insertoverwritetabletemp_outputSelecta.ID,a.MSISDN,a.DAY,a.MONTH,a.YEAR,a.GENDER,a.RELATIONSHIPSTATUS,b.NAME,COLLECT_SET(c.NAME)FROMtemp_basic_inf

中搜何在 section li RELATIONSHIPSTATUS arrays hadoop hive

azure - 在 HDInsight 上使用 HQL 文件时出现 ParseExceptions

我正在学习本教程http://azure.microsoft.com/en-us/documentation/articles/hdinsight-use-hive/但是在将查询源更改为使用文件时卡住了。使用New-AzureHDInsightHiveJobDefinition-Query$queryString时一切正常但是当我尝试New-AzureHDInsightHiveJobDefinition-File"/example.hql"与example.hql存储在blob容器的“根”中，我得到ExitCode40000和标准错误中的以下内容:Logginginitializedu

时出 ParseExceptions section code azure hadoop hive azure-hdinsight

regex - 使用点 '.' 的拆分无法使用 hive -e ""即使在放置双斜线之后

我使用以下查询来解析以点('.')分隔的数据。从配置单元控制台触发时，以下查询工作正常。我得到了这样的正确值:v=WijimLM4Khb5YUVrh7kl4bOWxYtIOtZwTRJ13977555161397755721139775573919但是当我使用hive-e""使用相同的查询时。它无法解析数据，解析列结果为空。nullnullnullnullnullnullnull查询:selectsplit(regexp_extract(cookie,'v=[^&\n\;\"]*',0),'\\.')[0],split(regexp_extract(cookie,'v=[^&\n\;\

amp 斜线 39 regexp_extract cookie regex hadoop hive

hadoop - hdfs snapshot可以用来恢复hive吗

知道hive使用metastore和hdfs，是否可以将从正在运行的hadoop-hive集群获取的hdfs快照恢复到新的hadoop-hive集群？我认为必须执行的一个步骤是在hive中再次创建表，但是这些表会自动连接到快照文件吗？有关此主题的一个链接位于ApacheMailArchives.我希望对此是否有更新或更好的答案。最佳答案 Hive使用2(元数据+hdfs中的仓库数据)试一试:(没查过，请注意)1)使用dstcp将当前Hadoop-hiveCluster中的hive仓库数据复制到新的Hadoop-hiveCluste

snapshot 用来 section hive hadoop

hadoop - 带参数的 Hive UDF

我想编写一个可以接受常量参数的自定义UDF(UDAF/UDTF)。比如我要写一个函数MAX(COL,i)，其中COL是求最大值的集合，i是位置(即i=1，求最大值，i=2，找到第二高等)，使得Hive查询看起来像:SELECTMAX(value,2)FROMtable;这不仅适用于MAX，所以我需要一种能够执行此操作的通用方法，因此无法从已排序的集合中进行排序和选择。最佳答案您可以使用ConstantObjectInspectors获取作为参数传递的常量值。在GenericUDF的initialize()方法或GenericUD

hadoop Hive section ConstantObjectInspector code apache-pig user-defined-functions user-defined-aggregate

hadoop屏幕上的日志太多

我最近开始使用hive学习hadoop。作为初学者，我不太熟悉屏幕上显示的所有日志。所以最好查看所有重要日志的干净版本。我根据Rutberglen的“ProgrammingHive”一书学习了Hive。刚刚开始，我在第一个命令后收到了大量日志。而在书上，它只是“好的，所用时间:3.543秒”。有人有减少这些日志的解决方案吗？PS:下面是我从命令“createtablex(aint);”得到的日志WARNING:org.apache.hadoop.metrics.jvm.EventCounterisdeprecated.Pleaseuseorg.apache.hadoop.log.met

hadoop 屏幕 hive apache logging

85 86 878889 90 91