草庐IT

add_date

全部标签

java - Hadoop 文本输出格式 : add headers to CSV output

我正在维护一个简单的hadoop作业,该作业生成CSV文件作为HDFS中的输出。该作业使用TextOutputFormat。我想将前导标题行添加到csv文件(我知道零件文件是由不同的worker创建的,如果他们每个人都获得标题,那不是问题)。如何实现?编辑:级联可以help但乍一看我不想开始使用新框架编辑:所以我想为输出的CSV文件添加标题。列数是确定性的。这是我的Reducer类的骨架:importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;imp

date - 配置单元日期转换不起作用

我正在尝试比较不同格式的两个日期。因此,我将它们都转换为unixtimespamp以进行比较,但因为它们具有不同的日期格式。它没有以正确的方式转换。我需要帮助。这是我的查询:selecta.date,b.datefromtable1ajointable2bon(from_unixtime(unix_timestamp(b.date,'MM/dd/yyyyHH:mm:ssa')))=(from_unixtime(unix_timestamp(nvl(a.date,'3050-01-0100:00:00.0'))));日期格式为:a.dateb.date4/12/20165:46:50PM

hadoop - 配置单元 cli 中的 "Add <directory>"

我想要类似的东西$hive>ADDFILE;添加一个目录到hive的工作目录。我正在使用配置单元0.7。我需要这个来添加python包以供mapper/reducer脚本使用。我有哪些选择? 最佳答案 对于0.7.1,您可以使用shell转义符(!)来运行!hadoopfs-mkdir或“dfs”命令dfs-mkdir.查看cliwikipage获取更多信息。不确定这些是否在0.7中。 关于hadoop-配置单元cli中的"Add",我们在StackOverflow上找到一个类似的问题:

hadoop - Cloudera Hive : Where to add json-serde-1. 3.7 jar文件

我使用的是cloudera5.8.0首先我运行这个命令:hive>ADDJAR/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;Added[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]toclasspathAddedresources:[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]然后我添加了json-serde-1.3.7jar文件hive>ADDJAR/usr/lib/hive/lib/json-serde-1.3.7-jar-with-d

date - unix_timestamp 函数在 Hive 中将 2 位格式年份转换为 4 位格式年份的逻辑是什么?

例如下面的hive脚本selectfrom_unixtime(unix_timestamp('30-Apr-50','dd-MMM-yy'),'yyyy-MM-dd')asdate1,from_unixtime(unix_timestamp('30-Apr-45','dd-MMM-yy'),'yyyy-MM-dd')asdate2,from_unixtime(unix_timestamp('30-Apr-35','dd-MMM-yy'),'yyyy-MM-dd')asdate3;结果如下date1date2date31950-04-301945-04-302035-04-30将2位数年

date - 验证日期在配置单元中是否有效?

我有日期列,格式为yyyyMMdd。我想检查日期是否有效。在informatica中,该函数可用作CASEWHENIS_DATE(TO_CHAR(DT),'YYYYMMDD')=0THENTO_DATE('99991231','YYYYMMDD')ELSETO_DATE(TO_CHAR(DT),'YYYYMMDD')END作为EFF_DT因为在hive中替代'is_date'函数不可用,如何在hive中实现相同的功能。 最佳答案 使用正则表达式:casewhenregexp_extract(date_column,'(19|20)[

hadoop - Apache hive : How to Add Column at Specific Location in Table

我想在Hive表的特定位置添加一个新列。当我添加新列时,它会转到最后一个位置。 最佳答案 您需要重新创建表。如果表是外部表并且数据已经包含新列,则发出drop和createtable语句。一般的解决方案是:1.createnew_table...;2.insertoverwritenew_tableselectfromold_table;3.dropold_table;4.alternew_tablerenametoold_table;此外,如果数据文件已经在某个位置包含新列,您可以1.Altertableaddcolumn使用此示

date - 带有 case 语句的 Hive 查询

我正在尝试在我的数据中使用一个名为priority的字段来驱动DATE_ADD函数的数值。从本质上讲,优先级决定了问题超出SLA的天数。我试图通过说来使用这个优先级:伪代码-Ifpriority=p0,DATE_ADD(date,INTERVAL1day)ElseIfpriority=p1,DATE_ADD(date,INTERVAL15day)这是我正在尝试的代码:SELECTjira.jiraidas`JIRA/FR`,jira.priorityas`Priority`,DATE_FORMAT(jira.created,"MM/dd/Y")as`DateJiraCreated`,D

date - Hadoop 黑斑羚 : Format datatype integer to date/timestamp to use addtime function

我在Impala中使用下表:customer_id|day_id|return_day_idABC2017083020170923BCD2017083020170901不幸的是,day_id和return_day_id字段都是INT而不是日期。如何将它们的数据类型更改为日期,以便我可以在day_id之后的4天内仅使用return_day_id计算不同的customer_id。我是否需要将其转换为日期,然后转换为时间戳,以便我可以使用adddate函数? 最佳答案 其中一条评论正确指出,您需要使用unix_timestamp和from

date - 根据oozie中的日期创建输出文件

我正在使用oozie来运行我的map-reduce作业。我想根据日期创建输出文件。但是它将日期作为字符串并最终打印而不是将日期作为值:/user/skataria/geooutput/$(date+"%m%d%Y%H%M%S")这是oozie属性文件:nameNode=hdfs://localhost:8020jobTracker=localhost:8021date=(date+"%m%d%Y%H%M%S")oozie.wf.application.path=${nameNode}/services/advert/sidinputDir=${nameNode}/user/${user