草庐IT

output-formatting

全部标签

hadoop - hadoop namenode -format 命令查询

在执行“hadoopnamenode-format”时,出现以下消息。Re-formatfilesysteminStorageDirectory/opt/data/temp/dfs/name?(YorN)这里应该给什么?"is"或“否”。如果给定Y,它会丢失HDFS中的数据吗? 最佳答案 仅当dfs.namenode.name.dir已经存在时才会提示此问题,即目录已经格式化或现有目录映射到dfs.namenode.name.dir.如果您希望再次重新格式化,请输入YelseN。在给出Y时,目录将被格式化,删除所有现有的元数据(fs

java - Apache Pig,抑制 "Output Location Validation Failed" "Output directory ... already exists"

在得到orangeoctopus的帮助后thisquestion,我现在需要抑制消息“输出位置验证失败”“输出目录......已经存在”。我知道目录存在,我想要那样。我很确定这将是覆盖我的存储UDF中的某些内容的问题,但我无法弄清楚是什么。对Java完全陌生,所以请多多包涵。提前致谢。 最佳答案 据我所知,您不能重复使用直接输出目录。Hadoop阻止了它。如果我理解正确的话,你正在处理每日日志,因此,我建议你设置一个名为输出的父输出目录,并将脚本中的输出目录设置为output/daily_date。

java - 在 hadoop 安装期间尝试执行命令 "hdfs: command not found"时出现 "hdfs namenode -format"

完整的错误陈述:Nocommand'hdfs'found,didyoumean:Command'hfs'frompackage'hfsutils-tcltk'(universe)Command'hdfls'frompackage'hdf4-tools'(universe)hdfs:commandnotfound 最佳答案 您的HDFS安装可能有问题,请尝试在命令中提供hdfs的完整路径。/path/to/dir/hdfsnamenode-format路径取决于您的操作系统和您使用的hadoop发行版等。使用locate或find。如

apache-spark - Spark RDD : partitioning according to text file format

我有一个包含数十GB数据的文本文件,我需要从HDFS加载它并将其并行化为RDD。此文本文件使用以下格式描述项目。请注意,字母字符串不存在(每行的含义是隐含的)并且每行可以包含空格以分隔不同的值:0001(id)100010002000(dimensions)0100(weight)0030(amount)0002(id)111010005000(dimensions)0220(weight)3030(amount)我认为并行化此文件的最直接方法是将其从本地文件系统上传到HDFS,然后通过执行sc.textFile(filepath)创建一个RDD。但是,在这种情况下,分区将取决于与文件

Hadoop 0.2 : How to read outputs from TextOutputFormat?

我的reducer类使用TextOutputFormat(Job给出的默认OutputFormat)生成输出。我喜欢在MapReduce作业完成后使用此输出来聚合输出。除此之外,我喜欢用TextInputFormat写出聚合信息,以便MapReduce任务的下一次迭代可以使用此过程的输出。谁能给我一个关于如何使用TextFormat进行书写和阅读的示例?顺便说一句,我使用TextFormat而不是Sequence的原因是互操作性。任何软件都应该使用输出。 最佳答案 暂时不要排除序列文件;它们使链接MapReduce作业变得快速和容易

java - hadoop MapReduce : find max key value pair from output of mapper

这听起来像是一项简单的工作,但使用MapReduce似乎并不那么简单。我有N个文件,其中每个文件只有一行文本。我希望Mapper输出键值对,如,其中'score'是根据文本行计算的整数。作为旁注,我正在使用以下代码片段来执行此操作(希望它是正确的)。FileSplitfileSplit=(FileSplit)reporter.getInputSplit();StringfileName=fileSplit.getPath().getName();假设映射器正确地完成了它的工作,它应该输出N个键值对。现在的问题是我应该如何对Reducer进行编程以输出具有最大“分数”的一对键值对?据我所

Hadoop 作业客户端 : Error Reading task output

我正在尝试在我的集群上处理40GB的维基百科英文文章。问题是以下重复错误消息:13/04/2717:11:52INFOmapred.JobClient:TaskId:attempt_201304271659_0003_m_000046_0,Status:FAILEDToomanyfetch-failures13/04/2717:11:52WARNmapred.JobClient:Errorreadingtaskoutputhttp://ubuntu:50060/tasklog?plaintext=true&attemptid=attempt_201304271659_0003_m_00

hadoop - "Starting flush of map output"在 hadoop 映射任务中花费很长时间

我在一个小文件(3-4MB)上执行maptask,但map输出相对较大(150MB)。显示Map100%后,需要很长时间才能完成溢出。请建议我如何减少这段时间。以下是一些示例日志...13/07/1017:45:31INFOmapred.MapTask:Startingflushofmapoutput13/07/1017:45:32INFOmapred.JobClient:map98%reduce0%13/07/1017:45:34INFOmapred.LocalJobRunner:13/07/1017:45:35INFOmapred.JobClient:map100%reduce0%

Python Streaming : how to reduce to multiple outputs?(尽管使用 Java 是可能的)

我读了HadoopinAction并发现在Java中使用MultipleOutputFormat和MultipleOutputs类,我们可以将数据减少到多个文件,但我不确定如何实现使用Python流式处理也是一样。例如:/out1/part-0000mapper->reducer\out2/part-0000如果有人知道,听说过,做过类似的事情,请告诉我 最佳答案 DumboFeathers,一组与Dumbo一起使用的java类(一个python库,可以轻松为hadoop编写高效的p​​ythonM/R程序),在其outputcla

Java Hadoop : How can I create mappers that take as input files and give an output which is the number of lines in each file?

我是Hadoop的新手,我已经设法运行了wordCount示例:http://hadoop.apache.org/common/docs/r0.18.2/mapred_tutorial.html假设我们有一个包含3个文件的文件夹。我希望每个文件都有一个映射器,这个映射器将只计算行数并将其返回给缩减器。然后,reducer会将每个映射器的行数作为输入,并将所有3个文件中存在的总行数作为输出。所以如果我们有以下3个文件input1.txtinput2.txtinput3.txt映射器返回:mapper1->[input1.txt,3]mapper2->[input2.txt,4]mappe