Mapred_草庐IT

hadoop - 在 Hive 脚本中设置 mapred.child.java.opts 会导致 MR 作业立即获得 'killed'

由于OutOfMemory和GCoverheadlimitexceeded错误，我有一些作业失败了。为了对抗前者，我尝试在配置单元脚本的开头设置SETmapred.child.java.opts="-Xmx3G";**。基本上，每当我将此选项添加到脚本时，安排的MR作业(对于脚本中几个查询中的第一个)都会立即“终止”。关于如何纠正这个问题有什么想法吗？是否有任何其他参数需要与最大堆空间一起修改(例如io.sort.mb)？任何帮助将非常感谢。FWIW，我正在使用hive-0.7.0和hadoop-0.20.2。我们集群中最大堆大小的默认设置是1200M。TIA。**-尝试过的其他一些替

中设 amp code mapred child hadoop hive hiveql

hadoop - 如何从 DFS 而不是从 Mapred 中删除 hadoop 节点？

我是hadoop的新手。为了运行一些基准测试，我需要各种hadoop配置进行比较。我想知道一种从DFS(不再运行datanode守护进程)中删除hadoop从站但不从Mapred中删除(继续运行tasktracker)的方法，反之亦然。据我所知，此类hadoop节点只有一个从属文件，而DFS和Mapred没有单独的从属文件。目前，我正在尝试在从属节点上同时启动DFS和Mapred，然后在从属节点上终止数据节点。但是将该节点放入HDFSGUI上的“死节点”需要一段时间。可以调整任何参数以使此超时更快？谢谢最佳答案尝试使用dfs.h

hadoop Mapred section 从属 mapreduce hdfs

java - 找不到 org.apache.hadoop.mapred.LocalClientProtocolProvider

我用Java编写了一个程序来执行嵌入的Pig语句。我执行了java语句registryQuery。但是当我尝试存储结果时，我给出了org.apache.hadoop.mapred.localClientProtocolProvidernotfound的错误。我不明白这个错误。附上句子:这是java代码pigServer.registerQuery("source=load'"+inputFile+"'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage("+"'datos:bikes','-loadKeytrue')"+"as(id

LocalClientProtocolProvider apache java hadoop apache-pig

Hadoop 作业在由 yarn (MRv2) 或 mapred (MRv1) 以外的用户提交时失败

我正在运行一个运行MRv1(CDH5)与LocalFileSystem配对的测试集群，我唯一能够运行作业的用户是mapred(因为mapred是启动jobtracker/tasktracker守护进程的用户)。当以任何其他用户提交作业时，作业失败，因为jobtracker/tasktracker无法在.staging目录下找到job.jar。当YARN(MRv2)与LocalFileSystem配对时，我遇到了完全相同的问题，即当由“yarn”以外的用户提交作业时，应用程序主管无法在.staging目录下找到job.jar。查看提交作业的用户的.staging目录，发现.staging

MRv Hadoop section staging gt hadoop2

hadoop - 星火-Hadoop-> org.apache.hadoop.mapred.InvalidInputException : Input path does not exist

我在尝试将文件从hdfs读取到Spark时遇到错误。文件README.md存在于hdfs中spark@osboxeshadoop]$hdfsdfs-lsREADME.md16/02/2600:29:14WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable-rw-r--r--1sparksupergroup48112016-02-2523:38README.md在Sparkshell中，我给了scala>valr

hadoop InvalidInputException apache spark scala apache-spark

java - 如何使用亚马逊的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置，例如mapred.task.timeout、mapred.min.split.size等。当我们使用外部脚本语言如ruby或python运行时，我们可以使用以下方式来指定这些配置:rubyelastic-mapreduce-j--stream--step-name"mystream"--jobconfmapred.task.timeout=0--jobconfmapred.min.split.size=52880--mappers3://somepath/mapper.rb--reducers3:somepath

自定 java somepath bootstrap hadoop mapreduce elastic-map-reduce emr

hadoop - 如何杀死由配置单元启动的 mapred 作业？

我现在使用CDH5.1。它通过YARN启动正常的Hadoop作业，但hive仍然可以使用mapred。有时一个大查询会挂起很长时间，我想杀死它。我可以通过JobTrackerWeb控制台找到这个大作业，但它没有提供终止它的按钮。另一种方式是通过命令行查杀。但是，我找不到任何通过命令行运行的作业。我已经尝试了2个命令:yarn应用程序列表映射作业列表如何终止这样的大查询？最佳答案您可以在运行作业时从HiveCLI或从WebUI获取作业ID。您还可以使用资源管理器中的应用程序ID列出作业ID。理想情况下，您应该从mapredjob-

配置单杀死 code section pre hadoop mapreduce hive hadoop-yarn cloudera-cdh

hadoop - HDFS 中参数 "mapred.min.split.size"的行为

参数“mapred.min.split.size”改变了之前写入文件的block的大小？假设我在开始JOB时传递值为134217728(128MB)的参数“mapred.min.split.size”。关于发生的事情，正确的说法是什么？1-每个MAP处理相当于2个HDFSblock(假设每个block64MB)；2-我的输入文件(以前包含HDFS)将有一个新的分区，以占用HDFS128M中的block；最佳答案 splitsize的计算公式:-max(mapred.min.split.size,min(mapred.max.spl

amp hadoop section block size hdfs

hadoop - 如何调整 mapred.reduce.parallel.copies？

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用mapred.reduce.parallel.copies。该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点？我们应该寻找什么？我们如何检测到过度并行化？最佳答案为了做到这一点，您基本上应该寻找4个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值，您可以推断出您正在突破极限。例如，如果您将“mapred.reduce.par

parallel hadoop section mapred 洗牌

hadoop - 绕过 org.apache.hadoop.mapred.InvalidInputException : Input Pattern s3n://[. ..] 匹配 0 个文件

这是我的一个问题alreadyasked在spark用户邮件列表上，我希望在这里取得更大的成功。我不确定它是否与spark直接相关，尽管spark与我无法轻易解决该问题的事实有关。我正在尝试使用各种模式从S3获取一些文件。我的问题是其中一些模式可能什么都不返回，当它们返回时，我得到以下异常:org.apache.hadoop.mapred.InvalidInputException:InputPatterns3n://bucket/mypatternmatches0filesatorg.apache.hadoop.mapred.FileInputFormat.listStatus(Fi

hadoop InvalidInputException scala apache spark amazon-s3 apache-spark