HIVE2

bash - 从 Apache Hive 运行 bash 别名

我正在尝试在Hadoop机器上创建一个别名并从HiveJVM运行它。当我使用!显式地从Hive运行命令时前缀它有效，但是当我添加别名、获取.bashrc文件并从Hive调用别名时，出现错误。示例:.bashrc内容:#EnvironmentvariablesrequiredbyhadoopexportJAVA_HOME=/usr/lib/jvm/java-7-oracleexportHADOOP_HOME_WARN_SUPPRESS=trueexportHADOOP_HOME=/home/hadoopexportPATH=$PATH:/home/hadoop/binaliasload-

hadoop - 执行 Hive 查询时获取权限被拒绝错误

在连接到直线时执行selectcount(*)fromtablename查询时出现以下错误。ERROR:JobSubmissionfailedwithexception'org.apache.hadoop.security.AccessControlException(Permissiondeniedatorg.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkOwner(FSPermissionChecker.java:201)我可以执行showtables；成功但每当我执行查询时都会收到此错误。我以有权访问had

hadoop Hive section code

hadoop - Jaspersoft Hive 日期参数问题

我正在使用JasperSoftStudio连接到Hive并传递带有动态日期的查询。该报告应该在昨天的日期进行查询。我在JasperSoftStudio数据集和查询对话框中使用动态时遇到问题。以下查询从Hive命令行运行，但JasperSoftStudio似乎无法识别命令“date_sub”和“unix_timestamp()”。我正在使用JasperSoftStudio6.1版。SELECTcol1,count(col2),count(col3)FROMtable1WHEREdate=date_sub(from_unixtime(unix_timestamp(),'yyyy-MM-dd

Jaspersoft hadoop section Studio hive jasper-reports jaspersoft-studio

hadoop - Hive 动态分区，未创建正确的分区

我正在尝试将数据插入到分区表中，但并未创建所有分区(仅创建了空值和零值)，请参见下文。hive>selectstate_code,district_code,count(*)frommarital_statusgroupbystate_code,district_code;TotalMapReducejobs=1启动的MapReduce作业:...Job0:Map:1Reduce:1CumulativeCPU:3.49secHDFSRead:193305HDFSWrite:240SUCCESSTotalMapReduceCPUTimeSpent:3seconds490msecOK280

hadoop Hive code Cumulative DISTRICT_CODE dynamic hdfs hiveql

Hadoop/Hive Collect_list 没有重复项

根据帖子，Hive0.12-Collect_list，我试图找到Java代码来实现一个UDAF，它将完成这个或类似的功能，但没有重复序列。例如，collect_all()返回一个序列A,A,A,B,B,A,C,C我想要返回序列A,B,A,C。依次重复的项目将被删除。有没有人知道Hive0.12中的函数将完成或已经编写了他们自己的UDAF？一如既往，感谢您的帮助。最佳答案我前一段时间遇到了类似的问题。我不想写一个完整的UDAF所以我只是用brickhousecollect做了一个组合和我自己的UDF。假设你有这些数据idvalue

Collect_list Collect code section hadoop hive hiveql

hadoop - 如何设置 Hive reduce 运算符，因为 reduce 运算符始终为 0

我正在尝试将数据上传到配置单元rc和orc文件，但reducer的数量始终为0。我尝试使用setmapred.reducer.tasks=1在配置单元中设置reducer，但它不起作用。我发现互联网上每个reducer的默认大小是1G，所以我尝试上传3G数据，这样reducer至少是2个。我需要做什么来减少运算符？最佳答案我需要有关查询的更多信息才能确定，但我的猜测是您正在运行的查询是仅映射作业，因此不需要任何缩减程序。您可以添加DISTRIBUTEBY语句以强制Hadoop使用缩减程序。例如，SELECTtxn_idFRO

运算符 reduce section reducer hadoop mapreduce hive

python - PySpark - Hive 上下文不返回结果但 SQL 上下文返回类似查询

当我在PySpark中运行HiveContext和SQLContext进行比较查询时，我注意到性能存在巨大差异版本/配置Spark1.3.1(也尝试过Spark1.5.1)Hadoop2.6(在CDH5.4.0上)pyspark--masteryarn--num-executors5--executor-memory10g--driver-memory4g--driver-cores4表格信息database.table有超过2k个分区database.table在field1上分区(在where子句中使用)HIVE上下文实现frompyspark.sqlimportSQLContex

PySpark python li spark section hadoop apache-spark

database - RDBMS 时间戳与 Hive 时间戳时区不匹配

如果我查询RDBMS以获取我收到的时间戳:2015-03-3000:00:00在我将它作为bigint列导出到Hive表后，我得到1427673600000(cast(tsastimestamp)gives2015-03-3002:00:00)。即当前本地时区(带夏令时)已应用于时间戳。如果我想与数据库中的内容保持一致，如何将导出的时间戳存储在Hive中？我是否需要始终将时间戳存储为Hive中的UTC格式，所以在这种情况下，我需要从我得到的时间中减去2小时然后我必须在查询期间应用当前时区(使用from_utc_timestamp)？如何考虑夏令时(GMT+1和GMT+2)？什么是最佳实

database RDBMS code Hive section date hadoop timezone

hadoop - Hive - 在组中添加具有不同值数量的列

假设我有以下数据。numbergroup1a1a3a4a4a5c6b6b6b7b8b9b10b14b15b我想按group对数据进行分组，然后再添加一列，说明每个组有多少个不同的number值。我想要的输出如下所示:numbergroupdist_number1a31a33a34a34a35c16b96b96b97b98b99b910b914b915b9我试过的是:>select*,count(distinctnumber)over(partitionbygroup)fromnumbers;1111如您所见，这会在全局范围内聚合并独立于组计算不同值的数量。我可以做的一件事是使用grou

hadoop Hive code section group

hadoop - 将 Hive 分区表存储为 Parquet 时计数器组过多

我创建了一个以id作为其分区的表样本，并将其以parquet格式存储。createtablesample(uuidString,dateString,NameString,EmailIDString,CommentsString,CompanyNameString,countryString,urlString,keywordString,sourceString)PARTITIONEDBY(idString)Storedasparquet;然后我使用下面的命令将值插入其中INSERTINTOTABLEsamplePARTITION(id)Selectuuid,date,Name,Em

Parquet hadoop apache java hive

51 52 535455 56 57