草庐IT

filter_format

全部标签

hadoop - 我可以在 hadoop - PIG 中使用 "filter by' 和 Map 结构吗?

前提是有一个像,,,这样的mapmap.文本[key1#v1][key2#v2][key3#v3]然后,如果我尝试查找“key2的值​​”,A=load‘map.text’as(M:map[]);B=foreachAgenerateM#'key2';C=filterBby$0!='';//togetridofemptyvaluelike(),(),().dumpC;还有其他方法可以找到key2吗?仅使用“过滤依据”。谢谢你。 最佳答案 不需要GENERATE一个字段,然后在FILTER中使用它;您可以将其包含在FILTER语句中,开

java - hadoop java.io.IOException : while running namenode -format on OSX 错误

我在格式化namenode时遇到以下错误,我已经尝试使用sudosu,正如其他一些堆栈溢出解决方案中提到的那样,但我仍然遇到此错误,请协助。14/01/1616:10:41INFOutil.GSet:ComputingcapacityformapINodeMap14/01/1616:10:41INFOutil.GSet:VMtype=64-bit14/01/1616:10:41INFOutil.GSet:1.0%maxmemory=889MB14/01/1616:10:41INFOutil.GSet:capacity=2^20=1048576entries14/01/1616:10:4

java - 将多个参数传递给 Pig Filter UDF

我是Pig脚本的新手。我想将多个参数传递给Pig过滤器UDF,但出现错误“无效的标量投影:需要从关系中投影列才能将其用作标量”我正在执行以下步骤。input=load'....';dumpinput;/*workingabletoseedata*/output=FILTERinputbynotFilterUDF(input,val1,val2);这没有用。所以我试着跟随。input=load'......';dumpinput;/*workingabletoseedata*/dataWithVal=FOREACHinputGENERATE$0,$1,val1,val2;dumpdata

regex - Hadoop Hive SerDe Row Format for String Quoted Space delimited file

我正在尝试为具有以下格式的日志文件创建一个Hive表。日志文件:#Software:1#Version:1#Start-Date:xx#Date:xx#Fields:datetimetime-takenc-ipcs-usernamecs-auth-groupx-exception-idsc-filter-resultcs-categoriescs(Referer)sc-statuss-actioncs-methodrs(Content-Type)cs-uri-schemecs-hostcs-uri-portcs-uri-pathcs-uri-querycs-uri-extensionc

filter - pig 中的过滤器匹配太多

我有一个过滤关键字列表(大约1000个),我需要使用这个列表过滤pig中的一个关系字段。最初,我将这些关键字声明为:%declarep1'.keyword1.';.......%declarep1000'.keyword1000.';我然后像这样进行过滤:Filtered=FITLERSRCBY(not$0matches'$p1')and(not$0matches'$p2')and......(not$0matches'$p1000');DUMP过滤;假设我的源关系在SRC中,我需要在第一个字段(即$0)上应用过滤。如果我将过滤器的数量减少到100-200,它工作正常。但随着过滤器数量

linux - 从主节点执行命令 "hadoop namenode -format "时出错?

我已经配置了hadoop(多节点设置)。在启动hadoop之前,我想为此格式化名称节点,我运行以下命令-->>hadoopnamenode-format它给出了一个错误-->/home/sandip/project/hadoop-1.1.2/bin/hadoop:line320:/usr/lib/jvm/java-6-openjdk-i386/jre/bin/java/bin/java:Notadirectory/home/sandip/project/hadoop-1.1.2/bin/hadoop:line390:/usr/lib/jvm/java-6-openjdk-i386/jr

Hadoop 配置单元 SQL : Create External Table from an oddly formatted file

目前我有一个初始系统在工作,它读取一个文件,每行格式如下所示:REVISION1230364918Anarchism2005-12-06T17:44:47ZRJII141644使用此代码:CREATEEXTERNALTABLEmytable(typeSTRING,aidBIGINT,ridBIGINT,titleSTRING,tsSTRING,unameSTRING,uidSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY''STOREDASTEXTFILELOCATION'/my/local/path/to/file';但是现在我有一个文件,每一行

hadoop - Apache pig : filter based on tupple member content

我正在学习ApachePig,在实现我的愿望时遇到了问题。我有这个对象(在执行GROUPBY之后):MLSET_1:{groupchararray,MLSET:{(key:chararray,text:chararray)}}我只想在某个模式(PATTERN_A)出现在文本中并且另一个模式(PATTERN_B)未出现在一个键的文本字段中时才生成key。我知道我可以使用MLSET.text获取特定键的所有文本值的元组,但是关于如何从元组中筛选项目列表,我仍然遇到同样的问题。这是一个例子:(key_A,{(key_A,start),(key_A,stop),(key_A,unknown),

java - "cannot execute binary file: Exec format error"hdfs 命令

当我尝试运行命令时hdfsnodename-format我收到此错误消息:/usr/local/hadoop/bin/hdfs:line304:/usr/local/Java/jdk1.7.0_79/bin/java:cannotexecutebinaryfile:Execformaterror/usr/local/hadoop/bin/hdfs:line304:/usr/local/Java/jdk1.7.0_79/bin/java:Success现在,我打开了hdfs文件,这是第304行:exec"$JAVA"-Dproc_$COMMAND$JAVA_HEAP_MAX$HADOOP

regex - hive SERDE 正则表达式 : Output format - want to use only few of the output Strings

输入文件如下eno::ename::dept::sal101::emp1::comp1::2800000201::emp2::comp2::2800000301::emp3::comp3::3400000401::emp4::comp4::3600000501::emp5::comp5::400000>createtableemp(enamestring,edeptstring)>rowformatserde'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'>WITHSERDEPROPERTIES(>"input.regex"="^([