草庐IT

mapreducer

全部标签

python - 在没有 PuTTy/SSH 的情况下通过 Python 启动 Hadoop MapReduce 作业

我一直在通过PuTTy登录SSH来运行HadoopMapReduce作业,这需要我在PuTTY中输入主机名/IP地址、登录名和密码才能获得SSH命令行窗口。进入SSH控制台窗口后,我会提供适当的MR命令,例如:hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.1.jar-file/nfs_home/appers/user1/mapper.py-file/nfs_home/appers/user1/reducer.py-mapper'/usr/lib/py

hadoop - EC2 主机中 MapReduce 中的 SSH 错误

我已在AmazonEC2主机中安装了ApacheHadoopMapReduce2.6.1,并使用私有(private)IP地址配置了运行时。你可以在下面[2-5]查看我的配置。为了尝试轻松调试我的问题,我已允许安全组[6]中的所有入站流量。问题是,当我启动MapReduce时,我在SSHkey中得到Permissiondenied。我注意到我无法从同一主机sshEC主机。我该如何解决这个错误?ubuntu@ip-XXX-XX-XX-XX:sshubuntu@ip-XXX-XX-XX我想在EC2的不同站点上运行的HDFS实例之间复制数据。使用主机的私有(private)IP地址是否正确?

Java MapReduce 计数器 - Oozie

Java应用程序在Hadoop集群中作为具有单个Mapper任务的map-reduce作业执行。如果一个javamapreduce作业(不是hive或任何其他作业只是一个直接的mapreduce作业)是oozie的一部分,我们会得到一个单独的mapper启动器并且实际的mapreduce作业独立运行。那么有没有办法将启动器和实际的mapreduce作业运行联系起来?像获取与启动器jobid一起运行的实际操作的jobid?任何命令知道吗? 最佳答案 您可以转到oozieUI并获取此信息。单击您想要的操作,然后转到ChildJobURL

python - MapReduce 如何允许 Mapper 读取 xml 文件进行查找

在我的MapReduce作业中,我将产品名称作为字符串参数传递给Mapper。Mapper.py脚本导入一个名为Process.py的辅助脚本,该脚本对产品名称执行某些操作并将一些发射字符串返回给Mapper。映射器然后将这些字符串发送到Hadoop框架,以便Reducer可以拾取它们。除以下内容外,一切正常:Process.py脚本包含查找值的字典,我想将其从脚本内部移动到xml文件以便于更新。我已经在本地对此进行了测试,如果我在Process.py脚本中包含xml文件的Windows路径,它就可以正常工作。但是,出于某种原因,在HadoopMapReduce环境中对此进行测试不起作

java - Mapreduce 作业配置文件位置

我在哪里可以找到已经运行的javamapreduce作业的作业配置文件,例如覆盖的默认设置和其他特定于作业的设置。我正在使用hadoop2.6.0。我假设每个使用其用户设置运行的作业都会有一个作业配置文件。很抱歉,如果重复这个问题,则无法找到确切的答案。在我的yarn-site.xml或mapred-site.xml中没有与此相关的内容。 最佳答案 在您的mapred-site.xml中,有配置参数:yarn.app.mapreduce.am.staging-dir。这个参数的说明是:Thestagingdirusedwhilesu

hadoop - mapreduce框架写入什么拆分元信息文件

我在mapreduce作业中收到以下错误:Jobinitializationfailed:java.io.IOException:Splitmetadatasizeexceeded10000000.Abortingjobjob_201511121020_1680atorg.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)atorg.apache.hadoop.mapred.JobInProgress.createSplits(JobInProg

Hadoop Mapreduce MultipleOutputs 输出控制台

当我运行带有和不带有multipleOutputs的mapreduce时,控制台日志之间存在差异。我有一个仅输出到文本文件的映射器作业。没有配置MultipleOutputs,我的映射器中的代码片段:context.write(null,newText(value));控制台输出摘录Map-ReduceFrameworkMapinputrecords=2Mapoutputrecords=2有了多重输出,我的映射器中的代码片段:multipleOutputs.write(null,newText(value),FileOutputFormat.getOutputPath(context)

python - Hadoop YARN 与 mapreduce

我已经在我的机器上安装了Hadoop-2.6.0并启动了所有服务。当我与我的旧版本比较时,这个版本不会启Action业跟踪器和任务跟踪器作业,而是启动节点管理器和资源管理器。问题:-我相信这个版本的Hadoop使用YARN来运行作业。我不能再运行mapreduce作业了吗?我是否应该编写适合YARN资源管理器和应用程序管理器的作业。是否有我可以提交的示例Python作业? 最佳答案 IbelievethisversionofHadoopusesYARNforrunningthejobs.Can'tIrunamapreducejoba

hadoop - MapReduce 程序性能测试

我们如何检查mapreduce程序中哪个map运行缓慢?在工作期间和完成工作后?MapReduce性能测试需要检查哪些参数。 最佳答案 这个问题非常广泛,但仍试图在一定程度上解决..1)当作业正在运行时,您可以在applicationmaster中看到2)job完成后可以在jobhistory中看到请参阅map-reduce的作业跟踪器和任务跟踪器文档。性能测试参数是一个非常宽泛的术语。有一些默认的测试用例将随发行版一起发布一般来说,我们可以使用上述跟踪器查看作业(包括map和reduce阶段)花费了多少时间以及每个map花费了多少

java - 具有混合输出端点的 Mapreduce 作业 : S3 and HDFS

我有一个在EMR中运行的MR作业,它当前将输出存储在S3中。reducer的输出将是同一映射器(想想身份映射器)的输入,我想尽可能快地执行连续运行,而不是等待EMR写入S3,然后在“x”分钟后安排映射器读取数据。写入和读取S3需要很长时间(~3--5分钟),所以我想知道是否有办法避免在连续运行时从S3读取?我还需要将mapreduce作业的输出写入S3,因为该数据对我很重要并且需要保留。但是,对于每次连续的MR运行,我不想从S3读取,而是可以将其写入HDFS(或缓存),然后将其用作下一次运行的输入吗?MultipleOutputs-有助于将数据输出到文件夹中的多个文件或写入多个文件夹。