草庐IT

input-filter

全部标签

java - Hadoop hdfs 显示 ls : `/home/hduser/input/' : No such file or directory error

我已经使用thistutorial在一台机器上安装了Hadoop2.6.我使用的是Ubuntu12.04机器和Java版本1.6.0_27。我已经为Hadoop操作创建了单独的用户hduser。我已经设置了HADOOP_HOME环境变量的值/usr/local/hadoop我已经提取了Hadoop分布。现在我正在关注example.但是当我执行命令时$HADOOP_HOME/bin/hdfsdfs-ls/home/hduser/input/它给出了以下错误-15/01/0218:32:38WARNutil.NativeCodeLoader:Unabletoloadnative-hado

hadoop - pig : Failed to parse: mismatched input 'id' expecting set null

我正在使用Pig0.12.1并具有以下Pig代码:C=LOAD'$file'USINGmyCustomLoader();D=FOREACHCGENERATEkey#id;我正在使用自定义加载程序加载文件。然后我想生成存储在key中的所有ID,一个映射。为什么我会收到以下错误消息:14/06/2716:56:21ERRORpig.PigServer:exceptionduringparsing:Errorduringparsing.mismatchedinput'id'expectingsetnullFailedtoparse:mismatchedinput'id'expectingse

exception - PIG (v0.10.0) FILTER 操作期间异常 : java. lang.Integer cannot be cast to java.lang.String

这是我的(看似微不足道的)PIG脚本,后面是它生成的异常:raw_logs=LOAD'./Apache-WebLog-Samples.d/access_log.txt'USINGTextLoader()AS(line:chararray);logs=FOREACHraw_logsGENERATEFLATTEN(REGEX_EXTRACT_ALL(line,'^(\\S+)\\s+(\\S+)\\s+(\\S+)\\s+\\[([\\w:/]+\\s[+\\-]\\d{4})\\]\\s+"(..*)"\\s+(\\S+)\\s+(\\S+)'))AS(remoteAddr:charar

hadoop - pig : filtering out empty string

我正在尝试从我的数据中过滤掉NULL和空字符串data_filtered=FILTERraw_data byCOLUMN_NAMEisnotnullandCOLUMN_NAME!='';当我运行它时,出现以下错误:ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Unexpectedcharacter' '如何解决此错误并过滤掉NULLS和空白字符串? 最佳答案 可以使用TRIM函数过滤空格data_filtered=FILTERraw_databy(COLUMN_NAMEisnotnu

hadoop - pig 错误 2118 : Input path does not exist

我正在运行简单的pig脚本,但它一直在抛出异常,说;org.apache.pig.backend.executionengine.ExecException:ERROR2118:输入路径不存在相信我路径是绝对正确的(根据我的理解),我尝试在本地文件系统和MapReduce模式下使用相同的数据,但没有区别。 最佳答案 我得到了解决,背后的原因是,关系名称和指定的路径/文件夹具有相同的名称,在这种情况下它不会迭代子文件夹或目录并产生这样的错误:) 关于hadoop-pig错误2118:Inp

hadoop - pig 镀金 : filtering records based on values in bag

我是Piglatin的新手,我有一个看起来像这样的数据文件(消息、电子邮件、用户session、垃圾邮件类型)为了简单起见,我只使用了垃圾邮件/非垃圾邮件——这个字段的值通常是大约100种不同的变体message1user1@email12345spammessage2user1@email12345spammessage3user1@email12345not-spammessage10user2@email90879not-spammessage11user2@email90879not-spam如果来自一个用户的任何一条消息被标记为垃圾邮件,我只需要删除/过滤他的所有消息..所以

java - Hadoop 选项没有任何效果(mapreduce.input.lineinputformat.linespermap、mapred.max.map.failures.percent)

我正在尝试实现一个MapReduce作业,其中每个映射器将占用150行文本文件,并且所有映射器将同时运行;此外,无论有多少maptask失败,它都不应该失败。这里是配置部分:JobConfconf=newJobConf(Main.class);conf.setJobName("Mymapreduce");conf.set("mapreduce.input.lineinputformat.linespermap","150");conf.set("mapred.max.map.failures.percent","100");conf.setInputFormat(NLineInputF

java - Hadoop-伪分布式模式: Input path does not exist

我是Hadoop的新手..我只是以独立模式运行我的hadoop应用程序。它工作得很好。我现在决定将其移至伪分布式模式。我如上所述进行了配置更改。显示了我的xml文件的片段:我的core-site.xml如下所示:fs.default.namehdfs://localhost/hadoop.tmp.dir/tmp/hadoop-onurAbaseforothertemporarydirectories.我的hdfs-site.xml是dfs.replication1我的mapred.xml是mapred.job.trackerlocalhost:8021我运行了start-dfs.sh和

Hadoop 先生 : better to have compressed input files or raw files?

从问题中可以得出,我想知道什么时候使用压缩格式(如gzip)的输入文件是有意义的,什么时候使用未压缩格式的输入文件是有意义的。压缩文件的开销是多少?读取文件时会慢很多吗?是否对大输入文件进行了基准测试?谢谢! 最佳答案 除非您正在进行开发并且需要经常将数据从HDFS读取到本地文件系统以进行处理,否则以压缩格式输入文件通常是有意义的。压缩格式提供了显着的优势。除非您以其他方式设置,否则数据已经复制到Hadoop集群中。复制数据是很好的冗余,但会占用更多空间。如果您的所有数据都以3倍的比例进行复制,那么您将消耗3倍于存储它所需的容量。压

hadoop - CDH4 Hbase 使用 Pig ERROR 2998 java.lang.NoClassDefFoundError : org/apache/hadoop/hbase/filter/Filter

我在伪分布式模式下使用CDH4,我在同时使用HBase和Pig时遇到了一些问题(但两者都可以单独工作)。我正在逐步遵循这个不错的教程:http://blog.whitepages.com/2011/10/27/hbase-storage-and-pig/所以我的Pig脚本看起来像这样register/usr/lib/zookeeper/zookeeper-3.4.3-cdh4.1.2.jarregister/usr/lib/hbase/hbase-0.92.1-cdh4.1.2-security.jarregister/usr/lib/hbase/lib/guava-11.0.2.ja