草庐IT

elastic-mapreduce-cli

全部标签

hadoop - 当以非 hadoop 用户身份运行时,Yarn MapReduce approximate-pi 示例失败退出代码 1

我正在使用Hadoop2.6.2和yarn运行一个小型私有(private)linux机器集群。我从linux边缘节点启动yarn作业。当由hadoop(super用户,集群的所有者)用户运行时,用于近似pi值的jar装Yarn示例完美运行,但在边缘节点上从我的个人帐户运行时失败。在这两种情况下(hadoop,我)我都像这样运行作业:clott@edge:/home/hadoop/hadoop-2.6.2/bin/yarnjar/home/hadoop/hadoop-2.6.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2

hadoop - 如何强制执行 mapreduce 程序来执行组合器?

我正在开发一个MapReduce程序,我需要在其中将实体插入到数据库中。由于某些性能问题,将实体插入数据库应该在组合器中完成。我的程序没有reducer,所以只有mapper和combiner。由于Hadoop引擎可能不执行combiner(combiner是可选的),我如何强制它运行combiner? 最佳答案 MapReduce框架不提供强制执行组合器的支持方法。组合器可能被调用0次、1次或多次。该框架可以自由地就此做出自己的决定。当前的实现决定根据映射任务执行期间发生的磁盘溢出来运行组合器。mapred-default.xml

hadoop - 非 mapreduce 应用程序如何在 YARN 中工作?

通过使用YARN,我们可以运行非mapreduce应用。但是它是如何工作的呢?在HDFS中,所有内容都存储在block中。对于每个block,将创建一个映射器任务来处理整个数据集。但是非mapreduce应用程序,它如何在不使用mapreduce的情况下处理不同数据节点中的数据集?请解释一下。 最佳答案 不要将Mapreduce范例与其他应用程序(例如Spark)混淆。Spark可以在Yarn下运行,但不使用映射器或缩减器。相反,它使用执行器,这些执行器知道数据局部性,就像mapreduce一样。sparkDriver将在数据节点上

异构集群中的 Hadoop MapReduce2 优化

我有这样的配置:Hadoop:v2.7.1(yarn)一个输入文件:大小=100GB。3个从属:每个都有4个VCORES,速度=2GHz,RAM=8GB5个从属:每个都有2个VCORES,速度=1GHz,RAM=2GBMapReduce程序:WordCount如何通过将小的输入分割分配给5个较慢的从属设备并将大的输入分割分配给3个最快的从属设备来最小化WordCount执行时间? 最佳答案 对于每台机器,您可以确定map/reduce插槽的数量,因此如果您想将较少的工作负载发送到您可以定义的较慢的机器,例如,每台较慢的机器有2个ma

hadoop - 在没有映射器的情况下在 mapreduce 中出错

我尝试在学生评分示例中使用KeyValueInputFormat。这是输入:s110s250s330s1100s150s230s370s350s275我使用KeyValueInputFormat作为输入格式,因此它将学生姓名(s1,s2...)作为键,将标记(10,50...)作为值。我的目标是找出每个人的总分。所以,我只使用reducer作为publicclassMarkReducerextendsReducer{publicvoidreduce(Textkey,Iterablevalues,Contextctx)throwsIOException,InterruptedExcept

java - Hadoop MapReduce 查询大型 json 数据

此处为Hadoopn00b。我在服务器上安装了Hadoop2.6.0,我在其中存储了12个json文件,我想对其执行MapReduce操作。这些文件很大,每个文件有2-5GB不等。JSON文件的结构是一个JSON对象数组。以下两个对象的片段:[{"campus":"Gløshaugen","building":"VarmetekniskogKjelhuset","floor":"4.etasje","timestamp":1412121618,"dayOfWeek":3,"hourOfDay":2,"latitude":63.419161638078066,"salt_timestam

hadoop - MapReduce 中的布隆过滤器

我必须在reducesidejoin算法中使用bloomfilter来过滤我的输入之一,但我对函数readFields有问题,该函数反序列化分布式缓存的输入流(布隆过滤器)转换成布隆过滤器。publicclassBloomJoin{//functionmap:inputtransaction.txtpublicstaticclassTransactionJoinextendsMapper{privateTextCID=newText();privateTextoutValue=newText();publicvoidmap(LongWritablekey,Textvalue,Conte

hadoop - 容器在 mapreduce 任务期间以非零退出代码 1 错误退出

在hadoop中执行jar时,出现以下错误:16/11/0418:32:59INFOmapreduce.Job:TaskId:attempt_1478261728730_0005_m_000000_2,Status:FAILEDExceptionfromcontainer-launch.Containerid:container_1478261728730_0005_01_000004Exitcode:1Stacktrace:ExitCodeExceptionexitCode=1:atorg.apache.hadoop.util.Shell.runCommand(Shell.java:

hadoop - 如何使用 Hadoop MapReduce 处理 3D 图像?

我正在开展一个项目,我需要处理大约10,000张3D图像。那么您能否建议我如何使用HADOOPMapReduce来执行此操作,以便我可以实现并行性并尽快获得结果。谢谢! 最佳答案 在处理图像时,您可以使用HIPI(HadoopImageProcessingInterface).还有一些toolsandexample来自HIPI的程序。您可以开始使用this.是的,这完全取决于您要如何处理图像。我认为立体视觉或3D成像立体成像是一种用于记录和显示3D(三维)图像或图像深度幻觉的技术。立体图像提供的空间信息可以诱使用户的大脑相信并看到图

java - hadoop:无法运行 mapreduce 作业

我在java中制作了3个文件,制作了一个jar文件并编写了这一行来执行MapReduce代码:hadoopjar/home/xyz/Documents/hadoop-2.7.3/abc1.jarwoq.WordCount/test/vocab.txt/test/output3jar文件名是abc1.jar,woq是包名,WordCount是定义作业的主类mapreduce代码。执行此行时,显示以下错误:Exceptioninthread"main"java.lang.ClassNotFoundException:woq.WordCountatjava.net.URLClassLoade