mapr_草庐IT

hadoop - 错误 : while processing statement: FAILED: Hive Internal Error: hive. mapred.supports.subdirectories 必须为真

我遇到了一个错误Errorwhileprocessingstatement:FAILED:HiveInternalError:hive.mapred.supports.subdirectoriesmustbetrueifanyoneoffollowingistrue:hive.optimize.listbucketing,mapred.input.dir.recursiveandhive.optimize.union.remove.当我尝试从HDFS目录递归加载数据到hive表时发生此错误我尝试设置以下参数:SETmapred.input.dir.recursive=true;SETh

hadoop - 线程 "main"org.apache.hadoop.mapred.InvalidJobConfException : Output directory not set 中的异常

嘿，你能帮我清除以下错误吗？当我运行Mapreduce作业fopr将数据从hdfs文件插入到hbase表中时，我得到了这个。使用HFileOutputFormat.class，之前我使用MultiTableOutputFormat.class运行相同的程序，它工作正常，但是在将数据插入hbase表时花费了很多时间。那么你能帮帮我吗……:)*job.setMapOutputKeyClass(ImmutableBytesWritable.class);job.setMapOutputValueClass(Put.class);job.setInputFormatClass(TextInpu

hadoop InvalidJobConfException section HFileOutputFormat class mapreduce hbase bigdata hadoop-streaming

Mesos 上的 Hadoop 失败并显示 "Could not find or load main class org.apache.hadoop.mapred.MesosExecutor"

我有一个Mesos集群设置——我已经验证主节点可以看到从节点——但是当我尝试运行Hadoop作业时，所有任务都以LOST状态结束。所有从站stderr日志中都存在相同的错误:Error:Couldnotfindorloadmainclassorg.apache.hadoop.mapred.MesosExecutor这是stderr日志中唯一的一行。按照http://mesosphere.io/learn/run-hadoop-on-mesos/上的说明进行操作，我在HDFS上放置了一个修改后的Hadoop分布，每个从站都可以访问它。在Hadoop发行版的lib目录中，我添加了hadoo

MesosExecutor amp code Hadoop mesos

java - 无法在 Oozie java 操作中设置 mapred.job.queue.name

我有一个运行紧迫作业的应用程序。我正在尝试将Oozie配置为使用Java操作运行此作业。我的操作如下，${jobTracker}${nameNode}mapred.job.queue.namelaunchercom.test.Main-Dmapred.output.compress=false-Dmapred.textoutputformat.separator=,-Dcrunch.disable.output.counters=trueActionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]但每次我运行Oozi

中设 java lt gt name hadoop oozie oozie-coordinator apache-crunch

hadoop - 我可以在不设置 mapred.reduce.tasks=1 的情况下在 map reduce 程序中找到最小值、最大值或平均值吗

我试图了解如何使用mapreduce找到一个非常大的文件的最小值、最大值和平均值。将reduce任务数设置为1是一个显而易见的解决方案，但对于非常大的文件来说并不是最佳选择。我也在考虑编写一个链式MR作业，但最终，你最终在最终作业中使用了一个reducer。有人可以阐明一些其他方法吗？谢谢最佳答案无论您的输入数据集有多大，我在这里使用1个reducer都没有发现任何问题。为此，您应该使用组合器功能，该功能应返回其本地Max、本地Min、本地TotalSum和Count并传递给单个reducer。这样，到达reducer的数据量非

reduce hadoop section reducer 数来 mapreduce

Hadoop 1.0.3 mapred.map.tasks 属性不工作

我正在使用hadoop1.0.3运行mapreduce作业。我有一个3节点集群设置。问题是我在/conf/mapred-site.xml中将属性mapred.map.tasks设置为20，但是当我运行该作业并使用以下网页访问集群信息时，hadoop仅显示6个maptask:50030。我已经在集群中的所有节点上编辑了上述配置文件。请帮忙。问候，莫辛最佳答案正如miguno所说，Hadoop只将mapred.map.tasks的值视为提示。也就是说，当我在使用MapReduce时，我能够通过指定最大计数来增加映射计数。这可能不适合

Hadoop mapred section map mapreduce

hadoop - MapR 架构与 Cloudera 架构

我熟悉Cloudera的基础设施或架构:Master节点包括NameNode、SecondaryNameNode、JobTracker、HMaster。从节点包括DataNode、TaskTracker、HRegionServer。Master节点应该都在自己的节点上(除非它是一个小集群，而不是SecondaryNameNode，JobTracker和HMaster可以组合，如果它是一个非常小的集群甚至是NameNode)。从节点应始终位于同一节点上。从节点越多越好。SecondaryNameNode用词不当，除非您为高可用性启用它。MapR是否维护此设置？它有何相似之处和不同之处？

Cloudera hadoop section MapR SecondaryNameNode architecture infrastructure

hadoop - 为什么我们在 YARN 中配置 mapred.job.tracker？

我所知道的是引入了YARN，它取代了JobTracker和TaskTracker。我看过一些Hadoop2.6.0/2.7.0安装教程，他们将mapreduce.framework.name配置为yarn和mapred.job.tracker属性作为本地或主机:端口。mapred.job.tracker属性的描述是"ThehostandportthattheMapReducejobtrackerrunsat.If"local",thenjobsarerunin-processasasinglemapandreducetask."我的疑问是如果我们使用YARN为什么要配置它，我的意思是J

tracker hadoop code section mapreduce hadoop-yarn

用于大图像处理的 Hadoop

我有一组50TB的~1GBtiff图像，我需要在这些图像上运行相同的算法。目前，我有用C++编写的整改过程并且运行良好，但是连续运行所有这些图像将花费很长时间。我知道MapReduce/Spark的实现可以工作，但我似乎无法弄清楚如何使用图像输入/输出。我见过的每个教程/示例都使用纯文本。理论上，我也想使用AmazonWebServices。如果有人对我有一些指导，那就太好了。我显然不是在寻找完整的解决方案，但也许有人已经成功地实现了接近于此的解决方案？提前致谢。最佳答案您的数据在HDFS中吗？您究竟希望从Hadoop/Spar

Hadoop 用于 section noreferrer noopener apache-spark mapr bigdata

hadoop - mapred-site.xml 中 mapreduce.framework.name 的经典、本地有什么区别？

官方对该参数的描述如下:TheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.我知道值“yarn”用于MRv2，它会将mapreduce作业提交给resourcemanager。但是本地和经典之间有什么区别？哪个对应MRv1？非常感谢! 最佳答案你是对的，“yarn”代表MRv2。“经典”用于MRv1，“本地”用于MR作业的本地运行。但是为什么需要MRv1？Yarn现在已经结束测试，它比旧的MRv1框架更稳定，而您的MapReduce作

mapred-site framework section MRv MRv1 hadoop mapreduce hadoop-yarn