草庐IT

JAXB_FORMATTED_OUTPUT

全部标签

hadoop - Java 映射减少 : how to store a list of LONGs in Hadoop Output

我有一个MapReduceJava程序,它输出一个数字列表作为String作为最终输出。但是数量比较长,占用空间太大。我想将每个数字转换为Long并存储。我怎样才能做到这一点? 最佳答案 ArrayWritable可以扩展为publicclassLongArrayWritableextendsArrayWritable{publicLongArrayWritable(){super(Text.class);}publicLongArrayWritable(LongWritable[]values){super(LongWritabl

mongodb - "ERROR 6000, Output location validation failed"在 EMR 上使用 PIG MongoDB-Hadoop 连接器

我在EMR上的pig脚本中收到“输出位置验证失败”异常。将数据保存回S3时失败。我使用这个简单的脚本来缩小问题范围:REGISTER/home/hadoop/lib/mongo-java-driver-2.13.0.jarREGISTER/home/hadoop/lib/mongo-hadoop-core-1.3.2.jarREGISTER/home/hadoop/lib/mongo-hadoop-pig-1.3.2.jarexample=LOAD's3://xxx/example-full.bson'USINGcom.mongodb.hadoop.pig.BSONLoader();S

Hadoop HDFS : input/output error when creating user folder

我已按照Hadoopthedefinitiveguide,4thedition:AppendixA中的说明进行操作在伪分布式模式下配置Hadoop。一切正常,除了我尝试创建目录时:hadoopfs-mkdir-p/user/$USER命令返回以下消息:mkdir:/user/my_user_name':Input/outputerror。虽然,当我第一次登录到我的根帐户sudo-s然后键入hadoopfs-mkdir-p/user/$USER命令时,目录'user/root'被创建(路径中的所有目录)。我想我遇到了Hadoop权限问题。任何帮助将不胜感激,谢谢。

hadoop - AWS 弹性 map 减少 : output to SimpleDB

将ElasticMapReduce输出导入SimpleDB的最有效方法是什么?我知道我可以将结果输出到S3,下载它们,然后让脚本解析结果并插入到SimpleDB中。但是有没有更简单/更快速的方法可以直接将EMR输出插入SimpleDB(出于时间和效率的原因)? 最佳答案 请参阅以下Amazon入门文档的第12页,其中有一节是关于“将数据存储到AmazonSimpleDB中”:http://awsmedia.s3.amazonaws.com/pdf/introduction-to-amazon-elastic-mapreduce.pd

java - hadoop jaxb类路径问题

我在hadoop作业中看到了这个:2014-08-2109:26:57,216ERRORorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.ExceptionInInitializerErroratcom.sun.xml.internal.ws.client.sei.SyncMethodHandler.invoke(SyncMethodHandler.java:107)atcom.sun.xml.internal.ws.client.sei.SyncMethodHandler.invoke(SyncMethodHandl

java - Apache Pig,抑制 "Output Location Validation Failed" "Output directory ... already exists"

在得到orangeoctopus的帮助后thisquestion,我现在需要抑制消息“输出位置验证失败”“输出目录......已经存在”。我知道目录存在,我想要那样。我很确定这将是覆盖我的存储UDF中的某些内容的问题,但我无法弄清楚是什么。对Java完全陌生,所以请多多包涵。提前致谢。 最佳答案 据我所知,您不能重复使用直接输出目录。Hadoop阻止了它。如果我理解正确的话,你正在处理每日日志,因此,我建议你设置一个名为输出的父输出目录,并将脚本中的输出目录设置为output/daily_date。

java - hadoop MapReduce : find max key value pair from output of mapper

这听起来像是一项简单的工作,但使用MapReduce似乎并不那么简单。我有N个文件,其中每个文件只有一行文本。我希望Mapper输出键值对,如,其中'score'是根据文本行计算的整数。作为旁注,我正在使用以下代码片段来执行此操作(希望它是正确的)。FileSplitfileSplit=(FileSplit)reporter.getInputSplit();StringfileName=fileSplit.getPath().getName();假设映射器正确地完成了它的工作,它应该输出N个键值对。现在的问题是我应该如何对Reducer进行编程以输出具有最大“分数”的一对键值对?据我所

Hadoop 作业客户端 : Error Reading task output

我正在尝试在我的集群上处理40GB的维基百科英文文章。问题是以下重复错误消息:13/04/2717:11:52INFOmapred.JobClient:TaskId:attempt_201304271659_0003_m_000046_0,Status:FAILEDToomanyfetch-failures13/04/2717:11:52WARNmapred.JobClient:Errorreadingtaskoutputhttp://ubuntu:50060/tasklog?plaintext=true&attemptid=attempt_201304271659_0003_m_00

hadoop - "Starting flush of map output"在 hadoop 映射任务中花费很长时间

我在一个小文件(3-4MB)上执行maptask,但map输出相对较大(150MB)。显示Map100%后,需要很长时间才能完成溢出。请建议我如何减少这段时间。以下是一些示例日志...13/07/1017:45:31INFOmapred.MapTask:Startingflushofmapoutput13/07/1017:45:32INFOmapred.JobClient:map98%reduce0%13/07/1017:45:34INFOmapred.LocalJobRunner:13/07/1017:45:35INFOmapred.JobClient:map100%reduce0%

Java Hadoop : How can I create mappers that take as input files and give an output which is the number of lines in each file?

我是Hadoop的新手,我已经设法运行了wordCount示例:http://hadoop.apache.org/common/docs/r0.18.2/mapred_tutorial.html假设我们有一个包含3个文件的文件夹。我希望每个文件都有一个映射器,这个映射器将只计算行数并将其返回给缩减器。然后,reducer会将每个映射器的行数作为输入,并将所有3个文件中存在的总行数作为输出。所以如果我们有以下3个文件input1.txtinput2.txtinput3.txt映射器返回:mapper1->[input1.txt,3]mapper2->[input2.txt,4]mappe