我有PentahoMapReduce作业(基本上是Java作业),它将HBase数据作为map输入。工作流非常适合少量数据(例如100行数据),但在几十万条记录上运行时会失败。两个映射器作业被提交到集群,它们正在做简单的数据聚合(大约400000行在两个HBase区域中分开)。它接缝任务无法在600秒内报告其状态,这是由mapred-site.xml中的mapred.task.timeout设置规定的。我不确定如何在Hadoop的Cloudera4.1.4发行版中更改此设置?同样在以下错误日志中,您可以看到一些其他错误:MetaVERSION="1".JobJOBID="job_201
我是hadoop的新手,正在测试不同数量的map任务和reduce任务之间的性能差异。文件大小约为5GB,hadoop安装在4核/8核机器(超线程)上。map和reduce是用python写的,所以我用-Dmapred.map.tasks=2指定map任务数,用-D指定reduce任务数mapred.reduce.tasks=2.问题问题是结果没有显示不同数量的maptask之间的任何性能差异..结果+----------+----------+----------+|map|reduce|time|+----------+----------+----------+|1|1|47m0
我在格式化namenode时遇到以下错误,我已经尝试使用sudosu,正如其他一些堆栈溢出解决方案中提到的那样,但我仍然遇到此错误,请协助。14/01/1616:10:41INFOutil.GSet:ComputingcapacityformapINodeMap14/01/1616:10:41INFOutil.GSet:VMtype=64-bit14/01/1616:10:41INFOutil.GSet:1.0%maxmemory=889MB14/01/1616:10:41INFOutil.GSet:capacity=2^20=1048576entries14/01/1616:10:4
我有一个特别的pig工作,通常需要大约12分钟才能运行,但每天有几次它会卡在奇怪的状态。该作业有6个映射和1个reduce任务。它成功完成了第一个maptask,然后它会“暂停”数小时(永远!)。作业跟踪器指示有5个map和1个reduce挂起,但是没有任务在运行。没有任务显示任何错误。maptask将不会启动,但不会发生错误。我如何找出任务没有开始的原因?我已尝试提高作业的优先级,并且已验证有可用的map和reduce插槽。运行的一张map的任务日志看起来完全正常。是否有其他日志可以告诉我发生了什么?我正在使用ClouderaCDH4.5和MR1。小型集群有5个节点。
我在AWSEMRhadoop2.2.0版本中运行了一个s3distcp作业。在3次尝试后,作业保持失败,reducer任务失败。我也都试过了:mapred.max.reduce.failures.percentmapreduce.reduce.failures.maxpercent要50到ooziehadoop操作配置和mapred-site.xml。但作业仍然失败。这是日志:2015-10-0214:42:16,001INFO[main]org.apache.hadoop.mapreduce.Job:TaskId:attempt_1443541526464_0115_r_000010
我有一个Java应用程序(作为Maven项目),它使用HttpClient(v4.5)访问RESTAPI,然后将GET响应作为JSON写入HDFS。这在EclipseIDE中工作正常。这是我的依赖项:org.apache.httpcomponentshttpclient4.5com.google.code.gsongson2.3.1org.apache.hadoophadoop-client2.2.0当我尝试将它与Oozie集成时,因为我计划定期进行RESTAPI调用和HDFS写入,我遇到了:Causedby:java.lang.NoSuchFieldError:INSTANCEato
当我运行mapreduce作业时,它从RUNNING跳转至PREP状态。我查看了mapreduce日志,但没有发现任何异常。我想知道这是否与yarn配置有关。所以,我查看了mapred-site.xml的配置[2],似乎内存大小是正确的。尽管我已将mapreduce设置为以32GB(yarn.nodemanager.resource.memory-mb32218)运行,但我在具有16个内核和64GBRAM的PC上运行。有什么尝试调试这个的建议吗?[1]工作状态Totaljobs:1JobIdStateStartTimeUserNameQueuePriorityUsedContainer
我在客户端模式下使用Yarn(版本2.6.0)在Hadoop集群上运行Spark应用程序(版本1.6.0)。我有一段运行长时间计算的代码,如果它花费的时间太长,我想终止它(然后运行一些其他函数)。这是一个例子:valconf=newSparkConf().setAppName("TIMEOUT_TEST")valsc=newSparkContext(conf)vallst=List(1,2,3)//settingupaninfiteactionvalfuture=sc.parallelize(lst).map(while(true)_).collectAsync()try{Await.
所以我尝试使用sqoop将数据从impala导出到mysql,这是由oozie作业安排的。但是当第一个sqoop操作开始时,它停留在map100%和reduce0%,并且所有其他操作都被填充。奇怪的是,在我kill这个oozie作业之前,mysql中没有数据,但是在我kill之后,mysql表中出现了数据(只有与第一个卡住的sqoopAction相关的表)。这是我的导出脚本:enterimagedescriptionhere我的oozie工作操作如下所示:thefirstrunningistheonestuck并且没有错误日志存在。 最佳答案
在涉及mapreduce的hive上执行任何查询时,我收到此错误。“UnabletoretrieveURLforHadoopTasklogs.Doesnotcontainavalidhost:portauthority:local” 最佳答案 报告的异常出现在旧版本的Hadoop中(即YARN之前)。大多数情况下,您使用的是旧版本的Hadoop。当mapred.job.tracker的值出现异常参数在local中设置为“mapred-site.xml”相反,它应该是:. 关于hadoop