start-mapred

hadoop - 与 Cloudera 和 Hortonworks 相比，Hadoop 发行版 MapR 有哪些缺点？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭6年前。ImprovethisquestionCloudera和Hortonworks使用HDFS，这是ApacheHadoop的基本概念之一。MapR使用自己的概念/实现。您可以直接使用native文件系统，而不是HDFS。您可以在MapR的网站上找到使用这种方法的很多优势。我想知道这种方法有什么缺点？

hadoop - 星火-Hadoop-> org.apache.hadoop.mapred.InvalidInputException : Input path does not exist

我在尝试将文件从hdfs读取到Spark时遇到错误。文件README.md存在于hdfs中spark@osboxeshadoop]$hdfsdfs-lsREADME.md16/02/2600:29:14WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable-rw-r--r--1sparksupergroup48112016-02-2523:38README.md在Sparkshell中，我给了scala>valr

hadoop InvalidInputException apache spark scala apache-spark

java - 如何使用亚马逊的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置，例如mapred.task.timeout、mapred.min.split.size等。当我们使用外部脚本语言如ruby或python运行时，我们可以使用以下方式来指定这些配置:rubyelastic-mapreduce-j--stream--step-name"mystream"--jobconfmapred.task.timeout=0--jobconfmapred.min.split.size=52880--mappers3://somepath/mapper.rb--reducers3:somepath

自定 java somepath bootstrap hadoop mapreduce elastic-map-reduce emr

hadoop - 如何杀死由配置单元启动的 mapred 作业？

我现在使用CDH5.1。它通过YARN启动正常的Hadoop作业，但hive仍然可以使用mapred。有时一个大查询会挂起很长时间，我想杀死它。我可以通过JobTrackerWeb控制台找到这个大作业，但它没有提供终止它的按钮。另一种方式是通过命令行查杀。但是，我找不到任何通过命令行运行的作业。我已经尝试了2个命令:yarn应用程序列表映射作业列表如何终止这样的大查询？最佳答案您可以在运行作业时从HiveCLI或从WebUI获取作业ID。您还可以使用资源管理器中的应用程序ID列出作业ID。理想情况下，您应该从mapredjob-

配置单杀死 code section pre hadoop mapreduce hive hadoop-yarn cloudera-cdh

hadoop - HDFS 中参数 "mapred.min.split.size"的行为

参数“mapred.min.split.size”改变了之前写入文件的block的大小？假设我在开始JOB时传递值为134217728(128MB)的参数“mapred.min.split.size”。关于发生的事情，正确的说法是什么？1-每个MAP处理相当于2个HDFSblock(假设每个block64MB)；2-我的输入文件(以前包含HDFS)将有一个新的分区，以占用HDFS128M中的block；最佳答案 splitsize的计算公式:-max(mapred.min.split.size,min(mapred.max.spl

amp hadoop section block size hdfs

hadoop - 如何调整 mapred.reduce.parallel.copies？

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用mapred.reduce.parallel.copies。该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点？我们应该寻找什么？我们如何检测到过度并行化？最佳答案为了做到这一点，您基本上应该寻找4个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值，您可以推断出您正在突破极限。例如，如果您将“mapred.reduce.par

parallel hadoop section mapred 洗牌

hadoop - 绕过 org.apache.hadoop.mapred.InvalidInputException : Input Pattern s3n://[. ..] 匹配 0 个文件

这是我的一个问题alreadyasked在spark用户邮件列表上，我希望在这里取得更大的成功。我不确定它是否与spark直接相关，尽管spark与我无法轻易解决该问题的事实有关。我正在尝试使用各种模式从S3获取一些文件。我的问题是其中一些模式可能什么都不返回，当它们返回时，我得到以下异常:org.apache.hadoop.mapred.InvalidInputException:InputPatterns3n://bucket/mypatternmatches0filesatorg.apache.hadoop.mapred.FileInputFormat.listStatus(Fi

hadoop InvalidInputException scala apache spark amazon-s3 apache-spark

Hadoop 2.2.0 运行 start-dfs.sh 失败，错误为 : JAVA_HOME is not set and could not be found

我正在Ubuntu12.x中安装Hadoop。我已经有一个deploy用户，我计划用它在机器集群中运行hadoop。下面的代码演示了我的问题，基本上我可以ssholympus没有问题，但是start-dfs.sh却失败了:deploy@olympus:~$ssholympusWelcometoUbuntu12.04.4LTS(GNU/Linux3.5.0-45-genericx86_64)*Documentation:https://help.ubuntu.com/Lastlogin:MonFeb318:22:272014fromolympusdeploy@olympus:~$echo

start-dfs JAVA_HOME section olympus code hadoop ssh

apache - hadoop.mapred vs hadoop.mapreduce？

为什么在Apache的hadoop包树中有两个独立的包map-reduce包:org.apache.hadoop.mapredhttp://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapred/org.apache.hadoop.mapreducehttp://javasourcecode.org/html/open-source/hadoop/hadoop-1.0.3/org/apache/hadoop/mapreduce/为什么要分开呢？是否有说明这一点的文档？

hadoop mapreduce apache section

hadoop - 使用 mapred 或 mapreduce 包来创建 Hadoop 作业哪个更好？

要创建MapReduce作业，您可以使用旧的org.apache.hadoop.mapred包或更新的org.apache.hadoop.mapreduce包用于Mappers和Reducers，乔布斯……第一个被标记为已弃用，但同时又被恢复了。现在我想知道使用旧的mapred包还是新的mapreduce包来创建作业更好，为什么。还是仅仅取决于您是否需要像MultipleTextOutputFormat这样的东西，它只在旧的mapred包中可用？最佳答案在功能方面，旧的(o.a.h.mapred)和新的(o.a.h.mapred

mapreduce hadoop section code noreferrer

116 117 118119120 121 122