HIVE_草庐IT

hadoop - Sqoop 以 avro 格式导入日期数据类型

**我的问题是日期少了两天在SQLServer中，日期为2015-06-12(日期类型为日期)，它被转换为hive表avro格式的字符串值为2015-06-10。使用的脚本。sqoop导入--connect"xxx"--query'select*fromdbo.tableNameWHERE$CONDITIONS'--target-dirxxx--fields-terminated-by'\001'--split-bytableName.columnName1-m8--as-avrodatafile--compression-codecsnappy--map-column-javacol

hadoop - 如何编写查询以避免在选择不同和大小的 collect_set 配置单元查询中使用单个 reducer？

如何重写这些查询以避免在reduce阶段使用单个reducer？它需要永远，我失去了使用它的并行性的好处。selectid,count(distinctlocations)ASunique_locationsfrommytable;和selectid,size(collect_set(locations))ASunique_locationsfrommytable; 最佳答案使用两个查询对count(distinctvar)有效:SELECTcount(1)FROM(SELECTDISTINCTlocationsasunique_

配置单 collect_set locations section unique_locations hadoop hive query-optimization cloudera hiveql

hadoop - Jaspersoft Hive 日期参数问题

我正在使用JasperSoftStudio连接到Hive并传递带有动态日期的查询。该报告应该在昨天的日期进行查询。我在JasperSoftStudio数据集和查询对话框中使用动态时遇到问题。以下查询从Hive命令行运行，但JasperSoftStudio似乎无法识别命令“date_sub”和“unix_timestamp()”。我正在使用JasperSoftStudio6.1版。SELECTcol1,count(col2),count(col3)FROMtable1WHEREdate=date_sub(from_unixtime(unix_timestamp(),'yyyy-MM-dd

Jaspersoft hadoop section Studio hive jasper-reports jaspersoft-studio

hadoop - Hive 动态分区，未创建正确的分区

我正在尝试将数据插入到分区表中，但并未创建所有分区(仅创建了空值和零值)，请参见下文。hive>selectstate_code,district_code,count(*)frommarital_statusgroupbystate_code,district_code;TotalMapReducejobs=1启动的MapReduce作业:...Job0:Map:1Reduce:1CumulativeCPU:3.49secHDFSRead:193305HDFSWrite:240SUCCESSTotalMapReduceCPUTimeSpent:3seconds490msecOK280

hadoop Hive code Cumulative DISTRICT_CODE dynamic hdfs hiveql

Hadoop/Hive Collect_list 没有重复项

根据帖子，Hive0.12-Collect_list，我试图找到Java代码来实现一个UDAF，它将完成这个或类似的功能，但没有重复序列。例如，collect_all()返回一个序列A,A,A,B,B,A,C,C我想要返回序列A,B,A,C。依次重复的项目将被删除。有没有人知道Hive0.12中的函数将完成或已经编写了他们自己的UDAF？一如既往，感谢您的帮助。最佳答案我前一段时间遇到了类似的问题。我不想写一个完整的UDAF所以我只是用brickhousecollect做了一个组合和我自己的UDF。假设你有这些数据idvalue

Collect_list Collect code section hadoop hive hiveql

hadoop - 加入两个表并在配置单元的新表中插入值

我是新手。我需要知道在配置单元中是否可以连接两个表(比如基于CustomedId列的customer_table和issues_table)并使用插入覆盖在配置单元的新表中插入值？最佳答案是的，可以使用CTAS(createtablenew_tableasselect...)语法。createtablenew_tableasselect*fromcustomer_table,issues_tablewherecustomer_table.CustomedId=issues_table.CustomedId;

配置单 hadoop table section hive hiveql

hadoop - 如何在配置单元的插入覆盖语句中用双引号括起输出

这是我的插入覆盖语句:INSERTOVERWRITEDIRECTORY/myworkspace/output/f_name/20150714selectconcat_ws('|',coalesce(A,''),coalesce(B,''),coalesce(C,''),coalesce(D,''))FROMTABLE_A;我得到的输出是:a|b|c|d但我希望输出为:"a"|"b"|"c"|"d"我无法弄清楚。最佳答案理想情况下，您的表定义应该定义您希望数据输出所采用的格式。这将使您不必进行大量的连接操作。在这种情况下，我将定义

配置单引号 section blockquote coalesce hadoop hive

hadoop - 如何设置 Hive reduce 运算符，因为 reduce 运算符始终为 0

我正在尝试将数据上传到配置单元rc和orc文件，但reducer的数量始终为0。我尝试使用setmapred.reducer.tasks=1在配置单元中设置reducer，但它不起作用。我发现互联网上每个reducer的默认大小是1G，所以我尝试上传3G数据，这样reducer至少是2个。我需要做什么来减少运算符？最佳答案我需要有关查询的更多信息才能确定，但我的猜测是您正在运行的查询是仅映射作业，因此不需要任何缩减程序。您可以添加DISTRIBUTEBY语句以强制Hadoop使用缩减程序。例如，SELECTtxn_idFRO

运算符 reduce section reducer hadoop mapreduce hive

python - PySpark - Hive 上下文不返回结果但 SQL 上下文返回类似查询

当我在PySpark中运行HiveContext和SQLContext进行比较查询时，我注意到性能存在巨大差异版本/配置Spark1.3.1(也尝试过Spark1.5.1)Hadoop2.6(在CDH5.4.0上)pyspark--masteryarn--num-executors5--executor-memory10g--driver-memory4g--driver-cores4表格信息database.table有超过2k个分区database.table在field1上分区(在where子句中使用)HIVE上下文实现frompyspark.sqlimportSQLContex

PySpark python li spark section hadoop apache-spark

database - RDBMS 时间戳与 Hive 时间戳时区不匹配

如果我查询RDBMS以获取我收到的时间戳:2015-03-3000:00:00在我将它作为bigint列导出到Hive表后，我得到1427673600000(cast(tsastimestamp)gives2015-03-3002:00:00)。即当前本地时区(带夏令时)已应用于时间戳。如果我想与数据库中的内容保持一致，如何将导出的时间戳存储在Hive中？我是否需要始终将时间戳存储为Hive中的UTC格式，所以在这种情况下，我需要从我得到的时间中减去2小时然后我必须在查询期间应用当前时区(使用from_utc_timestamp)？如何考虑夏令时(GMT+1和GMT+2)？什么是最佳实

database RDBMS code Hive section date hadoop timezone