草庐IT

custom-formatting

全部标签

regex - hive SERDE 正则表达式 : Output format - want to use only few of the output Strings

输入文件如下eno::ename::dept::sal101::emp1::comp1::2800000201::emp2::comp2::2800000301::emp3::comp3::3400000401::emp4::comp4::3600000501::emp5::comp5::400000>createtableemp(enamestring,edeptstring)>rowformatserde'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'>WITHSERDEPROPERTIES(>"input.regex"="^([

hadoop - "the container format for fields in a row"对文件格式意味着什么?

来自Hadoop:权威指南:TherearetwodimensionsthatgoverntablestorageinHive:therowformatandthefileformat.Therowformatdictateshowrows,andthefieldsinaparticularrow,arestored.InHiveparlance,therowformatisdefinedbyaSerDe,aportmanteauwordforaSerializer-Deserializer.Whenactingasadeserializer,whichisthecasewhenque

hadoop - 我应该在集群的所有数据节点上运行 `hdfs namenode -format` 吗?

我正在设置Hadoop集群。据我了解,至少有两名worker的集群的最低设置是4台机器:名称节点资源经理数据节点1数据节点2我对hdfsnamenode-format命令感到困惑,看起来它只用于格式化名称节点,但它的描述(当运行一个空的hdfs命令时)声明“格式化DFS文件系统”。这是否意味着我也应该在所有数据节点上作为安装的一部分运行该命令,还是应该只在名称节点上运行? 最佳答案 您只需格式化一次。它告诉NameNode做一个格式化,这主要是一个元数据操作。您不一定需要在NameNode实际驻留的节点上执行此操作。应该可以从任何地

date - Hadoop 黑斑羚 : Format datatype integer to date/timestamp to use addtime function

我在Impala中使用下表:customer_id|day_id|return_day_idABC2017083020170923BCD2017083020170901不幸的是,day_id和return_day_id字段都是INT而不是日期。如何将它们的数据类型更改为日期,以便我可以在day_id之后的4天内仅使用return_day_id计算不同的customer_id。我是否需要将其转换为日期,然后转换为时间戳,以便我可以使用adddate函数? 最佳答案 其中一条评论正确指出,您需要使用unix_timestamp和from

java - 具有 "customized"键的 MapReduce

我有以下问题:我有很多键值对形式的数据。关键是一些id和值-一些文本。我的目标是将这些对象分组到文本片段以某种方式“相似”的集群中。所以它看起来像是MapReduce的任务,如果将我的文本片段作为键,并将id作为值。但是这样的键不是MapReduce使用的传统方式,并且由于我并不真正了解MapReduces框架的内部实现,所以我不确定这种方式是否有效。所以我的详细想法是:1.在Java中使用一些MapReduce(Hadoop、GridGain)2.为我的文本片段创建特殊类(比如TextKey)3.覆盖类的equals(),在这里打包文本比较逻辑(比如levenstein距离比较,或其

date - hive cast string to date in 'dd/MMM/yyyy' format order by and group by issue

我将日期存储为[27/Feb/2016:00:24:31+0530]。我想要27/Feb/2016中的日期格式,并且还想按它排序。我试过了this解决方案,但它以2016-02-27形式返回,并且也正确排序。SELECTTO_DATE(FROM_UNIXTIME(UNIX_TIMESTAMP(SUBSTR(time,2,11),'dd/MMM/yyyy')))ASreal_date,urlFROMcleanned_logsORDERBYreal_dateASC;为了获得所需的格式,我尝试使用date_format()函数。它在1.2.1中不可用,所以我从1.0.1切换到它。SELECT

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个?

我正在从事一个NLP项目,该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce,我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败,我必须手动删除输出文件夹,调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑,我不想一次又一次地重复这些步骤。[

hadoop - pig-avro : how to customize the way, avrostorage 加载文件

我有一个要求,我们需要自定义使用avrostorage在pig中加载文件的方式:例如,我有一个具有以下架构的avro文件:{"namespace":"avroColorCount","type":"record","name":"User2","fields":[{"name":"name","type":"string"},{"name":"content","type":"bytes"}]}现在如果我使用下面的命令它工作正常:x=load'sample.avro'USINGAvroStorage()AS(name:chararray,content:bytearray);但是,如果

xml - Spark master 不调用 Custom InputFormat

我正在尝试探索ApacheSpark,作为其中的一部分,我想自定义InputFormat。就我而言,我想阅读xml文件并转换每次出现的到新记录。我确实写了定制TextInputFormat(XMLRecordInputFormat.java)返回自定义**XMLRecordReaderextendsorg.apache.hadoop.mapreduce.RecordReader**但我不明白为什么Sparkmaster不调用自定义输入格式(XMLRecordInputFormat.class)?由于某种原因,它继续表现得像普通的分线器。代码如下:importjava.util.Iter

java - Hbase 映射减少 : how to use custom class as value for the mapper and/or reducer?

我正在尝试熟悉Hadoop/HbaseMapReduce作业,以便能够正确编写它们。现在我有一个Hbase实例,其中包含一个名为dns的表,其中包含一些DNS记录。我试图制作一个简单的唯一域计数器来输出文件并且它有效。现在,我只使用IntWritable或Text,我想知道是否可以为我的Mapper/Reducer使用自定义对象。我试着自己做,但我得到了Error:java.io.IOException:Initializationofallthecollectorsfailed.Errorinlastcollectorwas:nullatorg.apache.hadoop.mapre