草庐IT

Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

我刚刚在伪分布式模式下设置了Hadoop/Yarn2.x(特别是v0.23.3)。我遵循了一些博客和网站的说明,它们或多或少提供了设置它的相同处方。我也关注了O'reilly的第3版Hadoop书(具有讽刺意味的是,它是最没有帮助的)。问题:Afterrunning"start-dfs.sh"andthen"start-yarn.sh",whileallofthedaemonsdostart(asindicatedbyjps(1)),theResourceManagerwebportal(Here:http://localhost:8088/cluster/nodes)indicate

hadoop - 是否可以在 Hadoop 1(没有 YARN)中使用 Impala?

我在Hadoop1的限制中看到我们唯一可以使用的范例是mapreduce。如果您想使用其他范例(例如spark),则必须使用Hadoop2.0和YARN。但我有一个与Impala相关的问题。是否可以在没有YARN的情况下使用Impala?谢谢。 最佳答案 是的,Impala可以独立于YARN使用。 关于hadoop-是否可以在Hadoop1(没有YARN)中使用Impala?,我们在StackOverflow上找到一个类似的问题: https://stacko

hadoop - 向 YARN 提交 wordcount 示例(SchedulerUtils.validateResourceRequest 的异常)

我得到以下异常:java.lang.NullPointerException:java.lang.NullPointerExceptionatorg.apache.hadoop.yarn.server.resourcemanager.scheduler.SchedulerUtils.validateResourceRequest(SchedulerUtils.java:196)atorg.apache.hadoop.yarn.server.resourcemanager.RMAppManager.submitApplication(RMAppManager.java:253)atorg

hadoop - 在没有 YARN 的情况下安装 HDFS 以与 SHARK 一起使用

我正在尝试安装ApacheShark。其中一项要求是安装HDFS。我不想使用YARN或MESOS。我只想要HDFS。我的问题是:这是否意味着我只能安装2.x之前的hadoop发行版?如果有,是哪一个?或者我可以使用Hadoop2.4并以某种方式禁用YARN吗?我不太确定该怎么做。我能找到的所有教程似乎都使用YARN。有人对如何仅在2.x中使用HDFS有任何建议吗?如果只想安装HDFS,我需要哪个hadoop发行版? 最佳答案 要使用shark,您需要安装:HDFS存储数据hive用于内存中使用的Sparkyarn不是强制性的

java - YARN hadoop错误java堆空间

我在hadoop2.6.0上使用YARN。当我运行mapreduce作业时,出现如下错误:15/03/1222:22:59INFOmapreduce.Job:TaskId:attempt_1426132548565_0003_m_000002_1,Status:FAILEDError:Javaheapspace15/03/1222:22:59INFOmapreduce.Job:TaskId:attempt_1426132548565_0003_m_000000_1,Status:FAILEDError:Javaheapspace15/03/1222:23:20INFOmapreduce

hadoop - 为什么 hadoop yarn mapreduce 作业不工作并停止运行作业?

我有一个mapreduce作业,我用YARN模式运行它。但是为什么我的mapreduce作业在运行作业步骤时停止而不继续?是这样的:15/04/0417:18:21INFOimpl.YarnClientImpl:Submittedapplicationapplication_1428142358448_000215/04/0417:18:21INFOmapreduce.Job:Theurltotrackthejob:http://master:8088/proxy/application_1428142358448_0002/15/04/0417:18:21INFOmapreduce.

hadoop - 长期运行的 yarn 应用程序的设计问题

我正在尝试编写一个yarn应用程序,并希望就我想到的几个设计问题获得一些建议。我已经了解了更简单的示例应用程序,如分布式shell及其一些变体,因此我熟悉基本的API。我想做的是创建一个具有Web界面的应用程序,用户可以与之交互并可能提供某种任务(任务的性质无关紧要)。基于这项工作,UI请求容器进行处理。我想到的理想安排是我的应用程序主管提供此WebUI,并且在有人来到AM网站并请求一些工作之前不会分配任何容器。此时,AM应该可以注册新容器并为其分配工作。如果AM提供WebUI,我的理解是每次向RM提交申请时,AM都由RM选择。这意味着AM可以有不同的IP,因此在应用程序重新启动时有不

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM,每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构,我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。 最佳答案 尝试设置spark.executor.cores1

hadoop - 使用 yarn 的 hive 问题

我在yarn上运行hivesql,它在连接条件下抛出错误,我能够创建外部表和内部表但是在使用命令时无法创建表createtableasASSELECTnamefromstudent.当通过hivecli运行相同的查询时它工作正常但是使用springjog它会抛出错误2016-03-2804:26:50,692[Thread-17]WARNorg.apache.hadoop.hive.shims.HadoopShimsSecure-Can'tfetchtasklog:TaskLogServletisnotsupportedinMR2mode.Taskwiththemostfailures