草庐IT

elastic-mapreduce

全部标签

python - 使用 elastic-mapreduce 将文件加载到 EMR 分布式缓存时出错

我正在使用以下命令启动集群。./elastic-mapreduce--create\--stream\--caches3n://bucket_name/code/totalInstallUsers#totalInstallUsers\--inputs3n://bucket_name/input\--outputs3n://bucket_name/output\--mappers3n://bucket_name/code/mapper.py\--reducers3n://bucket_name\--jobflow-roleEMR_EC2_DefaultRole\--service-rol

java - 运行Hadoop MapReduce Java程序时出现UnsatisfiedLinkError

我正在尝试在Windows8.1上使用Hadoop运行这个MapReduce程序。经过大量努力,我已经非常接近工作了。我有Java1.8.0_45和Hadoop-2.7.0。我还有winutils.exe和hadoop.dll,它们给很多人带来了问题。代码如下:publicclassOSProject{publicstaticclassMapextendsMapReduceBaseimplementsMapper{@Overridepublicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter

Hadoop MapReduce 输出

另一个关于hadoop的问题。是否可以将列表缩减为map?我的意思是在map()之后我有所有这样的列表KEY:VALUE:aaawordstringwordtextstringword是否可以将列表缩减为以下结构?KEY:VALUE:aaaword,3string,2text,1谢谢曼纽尔 最佳答案 我要做的是:由于您正在尝试实现典型的字数统计,但在与键关联的列表上,我将通过在映射器的输出中生成(键,值)对,例如:aaa-word,1aaa-string,1aaa-word,1aaa-text,1aaa-string,1aaa-wo

hadoop - 什么是比较 MPI 和 MapReduce 的良好基准测试方法?

我知道它的经验法则:大数据、非迭代、容错=>MapReduce;速度、小数据、迭代、非Mapper-Reducer类型=>MPI(HadoopMapReducevsMPI(vsSparkvsMahoutvsMesos)-Whentouseoneovertheother?)。我想知道的是我应该使用什么基准测试方法来证明MapReduce适用于大数据、非迭代、容错的情况。我应该使用什么基准测试方法来证明MPI在速度、小数据和迭代情况下表现出色。非常感谢您提供的任何帮助 最佳答案 你可以看看BigDataBench.它具有一系列不同的工作

java - Spring MVC 和 Apache Hadoop 启动 MapReduce Job

我正在尝试通过SpringMVC应用程序启动hadoopMapReduce作业。MVC应用程序使用ApacheTomcat7.0.62运行良好。此外,hadoop应用程序与spring-data-hadoop配合得很好。当我尝试合并这些项目时,MapReduce作业初始化崩溃并出现以下错误。15/05/3116:10:18WARNsupport.ClassPathXmlApplicationContext:Exceptionencounteredduringcontextinitialization-cancellingrefreshattemptorg.springframework

java - MapReduce 作业因 ExitCodeException exitCode=255 而失败

我正在尝试运行需要共享库(.so文件)的MapReduce作业。如果我使用独立Java程序中的共享库,我根本没有问题(该程序使用java.library.path来查找库),但是如果我尝试使用MapReduce程序中的相同native方法,那么我获取我在下面粘贴的异常(对于我使用分布式缓存的MapReduce程序)。我知道实际上正在加载native库并且从MapReduce调用native代码(C++),因为native函数将某些内容打印到标准输出,但在native函数返回后我看到一个“信号被捕获,正在退出"消息,然后应用程序日志仅提供以下信息(我认为255在这种情况下是-1)但仅此而

hadoop - 使用 Mapreduce 为数据添加新列

在处理数据时是否可以在mapreduce中追加列?示例:我有3列的输入数据集[EMPID,EMPNAME,EMP_DEPT],我想使用mapreduce处理这些数据。在减少阶段是否可以添加新列,比如TIMESTAMP(处理记录时的系统时间戳)。reducer的输出应该是EMPID,EMPNAME,EMP_DEPT,TIMESTAMP输入数据:EMPIDEMPNAMEEMP_DEPT1DavidHR2SamIT输出数据:EMPIDEMPNAMEEMP_DEPTTimestamp1DavidHRXX:XX:XX:XX2SamITXX:XX:XX:XX 最佳答案

hadoop - 检查 mapreduce 程序是否成功运行的不同方法有哪些

如果我们需要自动化mapreduce程序或从脚本运行,检查mapreduce程序是否成功运行的不同方法有哪些?一种方法是查找是否在输出目录中创建了_SUCCESS文件。命令“hadoopjarprogram.jarhdfs:/input.txthdfs:/output”是否根据成功或失败返回0或1? 最佳答案 就像Linux中的任何其他命令一样,您可以检查一个程序的退出状态hadoopjar命令使用内置变量$?。您可以使用:echo$?在执行hadoopjar命令后检查其状态。退出状态值从0到255不等。退出状态为零表示命令执行成功

Hadoop MapReduce (Yarn) 使用不同功率/规范的主机

我目前在集群中有高功率(cpu/ram)主机,我们正在考虑添加一些存储良好但功率低的主机。我担心的是它会降低工作绩效。来自新的(功能较弱的)主机的Map/Reducer将运行得更慢,而功能更强大的将只需要等待结果。有没有办法在Yarn中配置它?也许为主机设置优先级或根据每台机器上的核心数分配映射器/缩减器。谢谢,霍拉修 最佳答案 在YARN中,您可以为每个集群worker提供不同的硬件资源配置。然后,YARN将决定可以为每个工作人员分配多少任务(容器)以平衡工作量。换句话说,您可以在yarn-site.xml中为每个worker分别

java - JAVA MapReduce 中的上下文对象

这个问题在这里已经有了答案:WhatisKeywordContextinHadoopprogrammingworld?(2个答案)关闭5年前。map()方法中的Context上下文有什么用。publicvoidmap(LongWritablekey,Textvalue,Context上下文)