草庐IT

input-filter

全部标签

java - Hive StorageHandler 抛出异常 "Configuration and input path are inconsistent"

我有一个HiveStorageHandler如果我执行select*frommyTable它会返回底层存储中的所有行。当我执行类似selectcol1frommyTable的操作时,底层mapreduce作业会抛出异常:java.lang.RuntimeException:Errorinconfiguringobjectatorg.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109)atorg.apache.hadoop.util.ReflectionUtils.setConf(Reflectio

Hadoop 流与 Python : splitting input files manually

我是Hadoop的新手,正在尝试将其流功能与Python编写的映射器和缩减器一起使用。问题是我的原始输入文件将包含要由映射器识别的行序列。如果我让Hadoop拆分输入文件,它可能会在序列的中间进行拆分,因此不会检测到该序列。所以,我正在考虑手动拆分文件。这也将打破一些序列,因此,除此之外,我还将提供替代拆分,以创建与“第一个”拆分重叠的文件。这样我就不会丢失任何序列。我将运行thisarticle中描述的以下命令:hduser@ubuntu:/usr/local/hadoop$bin/hadoopjarcontrib/streaming/hadoop-*streaming*.jar\-

革命 R : filter an xdf using another xdf

我正在尝试使用in过滤一个非常大的xdf文件(位于cloudera上)以将其与另一个xdf文件(位于cloudera上)进行比较。如果我尝试:rxDataStep(inData=largeXdf,outFile=largeXdf,overwrite=TRUE,transformObjects=list(param1=parameter),rowSelection=(columnNameFromLargeXdf%in%param1$1),numRows=-1))我收到关于param$1的错误,指出类s4的对象不能被子集化。与在xdf中一样,数据对象不能被子集化。有没有办法解决?我宁愿不将

hadoop - pig : Filter a string on a basis of a phrase

我想知道是否可以根据短语过滤字符串?例如,我想统计查询中出现ps3(ps3)的次数。我不确定如何不使用与“ps3”的过滤条件完全匹配,因为不知道如何在其中放置一个选项卡。到目前为止我的代码是:data=LOAD'/user/cloudera/'usingPigStorage(',')as(text:chararray);filtered_data=FILTERdataBY(textmatches'.*ps3.*')OR(text=='ps3');Res=FOREACH(GROUPfiltered_dataALL)GENERATECOUNT(filtered_data);DUMPRes;

hadoop - HDFS NFS 网关 mount.nfs : Input/output error?

HDFSNFSGateWaymount.nfs:输入/输出错误?1.报错如下:[root@xxsbin]#mount-tnfs-overs=3,proto=tcp,nolock,noacl,synclocalhost://hdfs_ymount.nfs:Input/outputerror2016-03-1015:12:06,350WARNorg.apache.hadoop.hdfs.nfs.nfs3.RpcProgramNfs3:Exception804org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.au

java - mapreduce.input.keyvaluelinerecordreader.key.value.separator参数在hadoop安装中的位置

我在java中使用mapreduce来读取由“:”分隔的键值类型文件。我想出了如何解析文件(使用getConf().set("mapreduce.input.keyvaluelinerecordreader.key.value.separator",":");)。我试图找出存储这些参数的位置但找不到。我在hadoop安装上做了一个grep,但是没有设置这些参数的xml文件。根据documentation配置类,我试图在mapred-default.xml中找到该值,但没有成功。我在哪里可以找到这些值?其他一些参数也是如此。谢谢。 最佳答案

java - 失败 : ParseException line 1:94 mismatched input 'hdfs' expecting StringLiteral near 'location' in partition location

Java代码:Stringcmd0="hive-e\"use"+hiveuser+";sethive.exec.compress.output=true;setmapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;setmapreduce.job.queuename="+queue+";altertable"+"resident_tmp"+"addifnotexistspartition(weekday='"+"weekday=20170807"+"')location"+location+"\"";C

hadoop - pig FILTER ERROR 1000 : Error during parsing. 遇到

这个脚本运行良好data1=LOAD'/user/maria_dev/ml-100k/test/u3.data'AS(usesrID:int,movieID:int,rating:int,ratingTime:int);DUMPdata1;输出是当我通过错误使用FILTER然后PIGdata1=LOAD'/user/maria_dev/ml-100k/test/u3.data'AS(usesrID:int,movieID:int,rating:int,ratingTime:int);filterRowData1=filterdata1by(int)movieID==556;DUMPfi

hadoop - 组织.apache.ignite.IgniteException : For input string: "30s" in ignite hadoop execution

我想在apacheignite上执行Hadoop的字数统计示例。我在ignite中使用IGFS作为HDFS配置的缓存,但是在通过Hadoop提交作业以在ignite上执行后,我遇到了以下错误。提前感谢任何可以帮助我的人!Usingconfiguration:examples/config/filesystem/example-igfs-hdfs.xml[00:47:13]__________________________[00:47:13]/_/___/|//_/___/__/[00:47:13]_///(77//////_/[00:47:13]/___/\___/_/|_/___/

java - hadoop java : how to know that end of reducer input is reached?

我的reducer是这样的publicstaticclassReduceextendsMapReduceBaseimplementsReducer{ListallRecords=newArrayList();publicvoidreduce(IntWritablekey,Iteratorvalues,OutputCollectoroutput,Reporterreporter)throwsIOException{allRecords.add(values.next());Text[]outputValues=newText[7];for(inti=1;i>=7;i++){outputV