sort_dir_草庐IT

sorting - 如何对map reduce hadoop中的数据进行排序？

我正在使用一个包含4个MapReduce步骤的程序。我第一步的输出是:idvalue1202339436我有大约1,000,000个ID，在第二步中我必须对值进行排序。这一步的输出:idvalue4361203923如何在mapreduce中对数据进行排序？我需要使用terasort吗？如果是，我如何在程序的第二步使用terasort？谢谢。最佳答案如果你想根据value's排序，让它成为keyinmap函数。即idvalue120233943653map函数中的(值)(键)outputwillbekeyvalue3532932

java - Hadoop使用Java递归地将fsPermission设置为dir

您好，我有一个测试程序，可以将文件加载到此路径user/user1/data/app/type/file.gz的hdfs中。现在这个测试程序由多个用户运行多次。所以我想给rwx设置文件权限，这样任何人都可以删除这个文件。我有以下代码fs.setPermission(newPath("user/user1/data"),newFsPermission(FsAction.ALL,FsAction.ALL,FsAction.ALL))上一行将drwxrwxrwx授予所有目录，但对于file.gz，它授予-rw-r--r--权限，为什么这样呢？由于这个原因，除我之外的另一个用户无法通过测试程序

hadoop - 在 hadoop 多节点集群设置中创建从作业日志到 ${hadoop.tmp.dir} 的符号链接(symbolic link)失败

当我在3节点集群hadoop中运行简单的wordcount示例时，出现以下错误。我检查了必要文件夹的所有写/读权限。此错误不会停止mapreduce作业，但所有工作负载都转到集群中的一台机器上，其他两台机器在任务到达时给出与上述相同的错误。12/09/1309:38:37INFOmapred.JobClient:TaskId:attempt_201209121718_0006_m_000008_0,Status:FAILEDjava.lang.Throwable:ChildErroratorg.apache.hadoop.mapred.TaskRunner.run(TaskRunner

sorting - MapReduce - 如何按值排序减少输出

如何按值对reducer输出进行降序排序？我正在开发一个必须返回HitTest门歌曲的应用程序。因此，歌曲必须按收听次数排序。我的应用程序以这种方式工作:Input:songname@userid@booleanMapOutput:songnameuseridReduceOutput:songnamenumber_of_listening知道怎么做吗？最佳答案最好的方法是使用您的第一个MapReduce作业的输出作为另一个作业的输入，我称之为Sort.java。由于HadoopMap函数具有适当的排序算法，您甚至不需要reduc

hadoop - 使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR

我正在尝试使用yarn运行Spark，但我遇到了这个错误:线程“main”中的异常java.lang.Exception:当使用master'yarn'运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR。我不确定“环境”在哪里(具体是什么文件？)。我尝试使用:exportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexportYARN_CONF_DIR=$HADOOP_HOME/etc/hadoop在bash_profile中，但这似乎没有帮助。最佳答案在使用Ya

hadoop - mapreduce.task.io.sort.mb 的最大值是多少？

当我设置mapreduce.task.io.sort.mb=100000时。出现以下异常。java.lang.Exception:java.io.IOException:Invalid"mapreduce.task.io.sort.mb":100000mapreduce.task.io.sort.mb的最大值是多少？最佳答案我知道这个问题很老了，但是对于那些提出相同问题的人，您可以查看有关此值被上限的一些错误http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_re

hadoop - 我如何判断我的 hadoop 配置参数 io.sort.factor 是太小还是太大？

看完http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们得出结论，我们的6节点hadoop集群可以使用一些调整，而io.sort.factor似乎是一个很好的选择，因为它控制着一个重要的权衡。我们正计划进行调整和测试，但提前计划并知道会发生什么和要注意什么似乎是合理的。目前是10。我们怎么知道它导致我们合并太多？当我们提出它时，我们怎么知道它导致打开太多文件？请注意，我们无法直接关注博客日志摘录，因为它已更新为CDH3b2，我们正在研究CDH3u2，并且它们已更改...

hadoop - Spark 提交 YARN 方式 HADOOP_CONF_DIR 内容

我正在尝试在YARN模式下使用sparksubmit在hadoop集群上启动spark任务。我正在从我的开发机器上启动spark-submit。根据RunningSparkOnYARN文档，我应该在环境变量HADOOP_CONF_DIR或YARN_CONF_DIR上提供hadoop集群配置的路径。这就是它变得棘手的地方:如果我将任务发送到远程YARN服务，为什么这些文件夹必须存在于我的本地机器上？这是否意味着spark-submit必须位于集群内部，因此我无法远程启动spark任务？如果没有，我应该用什么填充这些文件夹？是否应该从任务管理器服务所在的YARN集群节点复制hadoop配置

sorting - 深入了解hadoop中Map reduce作业中map阶段的内部工作？

我正在阅读Hadoop:Thedefinitiveguide3rdedtition通过汤姆怀特。它是了解Hadoop内部结构的极好资源,特别是Map-Reduce我感兴趣的。从书中，(第205页):洗牌和排序MapReduce保证每个reducer的输入都按键排序。系统执行排序的过程——并将map输出作为输入传输到reducer——被称为shuffle。我由此推断，key在发送到reducer之前是经过排序的，说明job的map阶段的输出是排序的。请注意:我不称之为映射器，因为映射阶段包括映射器(由程序员编写)和MR框架的内置排序机制。map侧每个映射任务都有一个循环内存缓冲区，它将输

Hadoop dfs -ls 返回我的 hadoop/dir 中的文件列表

我在Win7下设置了一个通过cygwin运行的单节点Hadoop配置。通过bin/start-all.sh启动Hadoop之后我跑bin/hadoopdfs-ls它返回我的hadoop目录中的文件列表。然后我运行bin/hadoopdatanode-formatbin/hadoopnamenode-format但是-ls仍然返回我的hadoop目录的内容。据我所知，它应该什么都不返回(空文件夹)。我做错了什么？最佳答案您是否编辑了conf文件夹下的core-site.xml和mapred-site.xml？您的hadoop集群似