草庐IT

filter_format

全部标签

hadoop - "the container format for fields in a row"对文件格式意味着什么?

来自Hadoop:权威指南:TherearetwodimensionsthatgoverntablestorageinHive:therowformatandthefileformat.Therowformatdictateshowrows,andthefieldsinaparticularrow,arestored.InHiveparlance,therowformatisdefinedbyaSerDe,aportmanteauwordforaSerializer-Deserializer.Whenactingasadeserializer,whichisthecasewhenque

hadoop - 我应该在集群的所有数据节点上运行 `hdfs namenode -format` 吗?

我正在设置Hadoop集群。据我了解,至少有两名worker的集群的最低设置是4台机器:名称节点资源经理数据节点1数据节点2我对hdfsnamenode-format命令感到困惑,看起来它只用于格式化名称节点,但它的描述(当运行一个空的hdfs命令时)声明“格式化DFS文件系统”。这是否意味着我也应该在所有数据节点上作为安装的一部分运行该命令,还是应该只在名称节点上运行? 最佳答案 您只需格式化一次。它告诉NameNode做一个格式化,这主要是一个元数据操作。您不一定需要在NameNode实际驻留的节点上执行此操作。应该可以从任何地

date - Hadoop 黑斑羚 : Format datatype integer to date/timestamp to use addtime function

我在Impala中使用下表:customer_id|day_id|return_day_idABC2017083020170923BCD2017083020170901不幸的是,day_id和return_day_id字段都是INT而不是日期。如何将它们的数据类型更改为日期,以便我可以在day_id之后的4天内仅使用return_day_id计算不同的customer_id。我是否需要将其转换为日期,然后转换为时间戳,以便我可以使用adddate函数? 最佳答案 其中一条评论正确指出,您需要使用unix_timestamp和from

hadoop - Apache pig : Easier way to filter by a bunch of values from the same field

假设我想根据同一字段中的值选择数据子集。现在我必须做这样的事情TestLocationsResults=FILTERSalesDataby(StoreId=='17'orStoreId=='85'orStoreId=='12'orStoreId=='45'orStoreId=='26'orStoreId=='75'orStoreId=='13')在SQL中,我们可以简单地这样做:SELECT*FROMSalesDatawhereStoreIDIN(17,12,85,45,26,75,13)Pig中是否有我缺少的类似快捷方式? 最佳答案

date - hive cast string to date in 'dd/MMM/yyyy' format order by and group by issue

我将日期存储为[27/Feb/2016:00:24:31+0530]。我想要27/Feb/2016中的日期格式,并且还想按它排序。我试过了this解决方案,但它以2016-02-27形式返回,并且也正确排序。SELECTTO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(SUBSTR(time,2,11),'dd/MMM/yyyy')))ASreal_date,urlFROMcleanned_logsORDERBYreal_dateASC;为了获得所需的格式,我尝试使用date_format()函数。它在1.2.1中不可用,所以我从1.0.1切换到它。SELECT

filter - 如何在 HBase 中获取最大行键?

如何获取HBase表中的最大rowkey?我有一个包含两行的表格:TT-0001column=cf:col-1,timestamp=1341218075789,value=abcTT-0002column=cf:col-1,timestamp=1341218075789,value=abc我想获取row2(rowkey的最大值)。我如何在Hbase中执行此操作? 最佳答案 使用你选择的行键,你可以简单地返回你的表的“最后”行并打印出行键(因为我假设你只是增加“TT-”后面的数字)。您还可以使用KeyOnlyFilter这将发出值,您

hadoop - "hadoop namenode -format"目录格式错误

我正在尝试在CentOS6.3上安装Hadoop1.1.2.21我已经在/etc/hadoop/conf/hdfs-site.xml文件中配置了dfs.name.dirdfs.name.dir/mnt/ext/hadoop/hdfs/namenode但是当我运行“hadoopnamenode-format”命令时,它会格式化/tmp/hadoop-hadoop/dfs/name。我错过了什么? 最佳答案 我遇到了这个问题并解决了它。所以更新这个答案。确保您的环境变量HADOOP_CONF_DIR指向可以找到所有用于配置的xml文件的

datetime - 转换日期时间字符串 (3/24/2017 10 :00:00 PM) to (3-24-2017 22:00:00) hive i. e convert from 12 hour to 24 hour format

我在配置单元表中有一个数据类型为字符串的日期时间字段。看起来如下:datetime3/24/201710:00:00PM尝试将其转换为hive所需的正确格式,还尝试将AM/PM删除为24小时格式,但无济于事。selectfrom_unixtime(unix_timestamp(datetime,'mm-dd-yyyyHH:MM:SS'))fromtest_table 最佳答案 您可以使用以下命令实现此目的:selectfrom_unixtime(unix_timestamp(datetime,'MM/dd/yyyyhh:mm:ssa

exception - PIG (v0.10.0) FILTER 操作期间异常 : java. lang.Integer cannot be cast to java.lang.String

这是我的(看似微不足道的)PIG脚本,后面是它生成的异常:raw_logs=LOAD'./Apache-WebLog-Samples.d/access_log.txt'USINGTextLoader()AS(line:chararray);logs=FOREACHraw_logsGENERATEFLATTEN(REGEX_EXTRACT_ALL(line,'^(\\S+)\\s+(\\S+)\\s+(\\S+)\\s+\\[([\\w:/]+\\s[+\\-]\\d{4})\\]\\s+"(..*)"\\s+(\\S+)\\s+(\\S+)'))AS(remoteAddr:charar

hadoop - pig : filtering out empty string

我正在尝试从我的数据中过滤掉NULL和空字符串data_filtered=FILTERraw_data byCOLUMN_NAMEisnotnullandCOLUMN_NAME!='';当我运行它时,出现以下错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Unexpectedcharacter' '如何解决此错误并过滤掉NULLS和空白字符串? 最佳答案 可以使用TRIM函数过滤空格data_filtered=FILTERraw_databy(COLUMN_NAMEisnotnu