草庐IT

start-mapred

全部标签

hadoop - 与 Cloudera 和 Hortonworks 相比,Hadoop 发行版 MapR 有哪些缺点?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭6年前。ImprovethisquestionCloudera和Hortonworks使用HDFS,这是ApacheHadoop的基本概念之一。MapR使用自己的概念/实现。您可以直接使用native文件系统,而不是HDFS。您可以在MapR的网站上找到使用这种方法的很多优势。我想知道这种方法有什么缺点?

hadoop - 星火-Hadoop-> org.apache.hadoop.mapred.InvalidInputException : Input path does not exist

我在尝试将文件从hdfs读取到Spark时遇到错误。文件README.md存在于hdfs中spark@osboxeshadoop]$hdfsdfs-lsREADME.md16/02/2600:29:14WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable-rw-r--r--1sparksupergroup48112016-02-2523:38README.md在Sparkshell中,我给了scala>valr

java - 如何使用亚马逊的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项?

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置,例如ma​​pred.task.timeout、mapred.min.split.size等。当我们使用外部脚本语言如ruby或python运行时,我们可以使用以下方式来指定这些配置:rubyelastic-mapreduce-j--stream--step-name"mystream"--jobconfmapred.task.timeout=0--jobconfmapred.min.split.size=52880--mappers3://somepath/mapper.rb--reducers3:somepath

hadoop - 如何杀死由配置单元启动的 mapred 作业?

我现在使用CDH5.1。它通过YARN启动正常的Hadoop作业,但hive仍然可以使用mapred。有时一个大查询会挂起很长时间,我想杀死它。我可以通过JobTrackerWeb控制台找到这个大作业,但它没有提供终止它的按钮。另一种方式是通过命令行查杀。但是,我找不到任何通过命令行运行的作业。我已经尝试了2个命令:yarn应用程序列表映射作业列表如何终止这样的大查询? 最佳答案 您可以在运行作业时从HiveCLI或从WebUI获取作业ID。您还可以使用资源管理器中的应用程序ID列出作业ID。理想情况下,您应该从mapredjob-

hadoop - HDFS 中参数 "mapred.min.split.size"的行为

参数“mapred.min.split.size”改变了之前写入文件的block的大小?假设我在开始JOB时传递值为134217728(128MB)的参数“mapred.min.split.size”。关于发生的事情,正确的说法是什么?1-每个MAP处理相当于2个HDFSblock(假设每个block64MB);2-我的输入文件(以前包含HDFS)将有一个新的分区,以占用HDFS128M中的block; 最佳答案 splitsize的计算公式:-max(mapred.min.split.size,min(mapred.max.spl

hadoop - 如何调整 mapred.reduce.parallel.copies?

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用mapred.reduce.parallel.copies。该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点?我们应该寻找什么?我们如何检测到过度并行化? 最佳答案 为了做到这一点,您基本上应该寻找4个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值,您可以推断出您正在突破极限。例如,如果您将“mapred.reduce.par

hadoop - 绕过 org.apache.hadoop.mapred.InvalidInputException : Input Pattern s3n://[. ..] 匹配 0 个文件

这是我的一个问题alreadyasked在spark用户邮件列表上,我希望在这里取得更大的成功。我不确定它是否与spark直接相关,尽管spark与我无法轻易解决该问题的事实有关。我正在尝试使用各种模式从S3获取一些文件。我的问题是其中一些模式可能什么都不返回,当它们返回时,我得到以下异常:org.apache.hadoop.mapred.InvalidInputException:InputPatterns3n://bucket/mypatternmatches0filesatorg.apache.hadoop.mapred.FileInputFormat.listStatus(Fi

Hadoop 2.2.0 运行 start-dfs.sh 失败,错误为 : JAVA_HOME is not set and could not be found

我正在Ubuntu12.x中安装Hadoop。我已经有一个deploy用户,我计划用它在机器集群中运行hadoop。下面的代码演示了我的问题,基本上我可以ssholympus没有问题,但是start-dfs.sh却失败了:deploy@olympus:~$ssholympusWelcometoUbuntu12.04.4LTS(GNU/Linux3.5.0-45-genericx86_64)*Documentation:https://help.ubuntu.com/Lastlogin:MonFeb318:22:272014fromolympusdeploy@olympus:~$echo

apache - hadoop.mapred vs hadoop.mapreduce?

为什么在Apache的hadoop包树中有两个独立的包map-reduce包:org.apache.hadoop.mapredhttp://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapred/org.apache.hadoop.mapreducehttp://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapreduce/为什么要分开呢?是否有说明这一点的文档?

hadoop - 使用 mapred 或 mapreduce 包来创建 Hadoop 作业哪个更好?

要创建MapReduce作业,您可以使用旧的org.apache.hadoop.mapred包或更新的org.apache.hadoop.mapreduce包用于Mappers和Reducers,乔布斯……第一个被标记为已弃用,但同时又被恢复了。现在我想知道使用旧的mapred包还是新的mapreduce包来创建作业更好,为什么。还是仅仅取决于您是否需要像MultipleTextOutputFormat这样的东西,它只在旧的mapred包中可用? 最佳答案 在功能方面,旧的(o.a.h.mapred)和新的(o.a.h.mapred