appengine-application
全部标签 我已经开始使用HadoopYARN(AMI3.3.1)在AmazonEMR上运行PIG作业,但是由于Yarn中不再有作业跟踪器,我似乎无法找到WebUI以便我可以跟踪MapReduce作业的Mappers和Reducers的数量,当我尝试访问资源管理器UI页面中提供的ApplicationMaster链接时,我被告知该页面不存在(下面提供的图片)。有谁知道我如何通过我的网络浏览器访问一个UI,它会根据映射器、reducer的数量和每个完成的百分比等向我显示当前的工作状态?谢谢 最佳答案 从ResourceManager网页单击App
我在YARN集群上运行了一些Spark应用程序。该应用程序显示在YARNUI的“所有应用程序”页面中http://host:8088/cluster但是yarnapplication-list命令没有给出任何结果。这可能是什么原因造成的? 最佳答案 当您使用不带“-appTypes”或“-appStates”选项的“-list”选项时,它会对“应用程序类型”和“状态”应用默认过滤(请查看下面突出显示的部分)。如果您的所有应用程序都不符合默认过滤条件,那么您将得不到任何结果。申请总数(申请类型:[]和状态:[SUBMITTED、ACC
作为this的后续行动问题,当我尝试在我的单节点机器上使用Spark2.1.1overYarn(Hadoop2.8.0)时出现新错误。如果我使用启动SparkShellspark-shell它开始没有问题。在使用通常的start-dfs.sh和start-yarn.sh启动Hadoop之后,如果我使用spark-shell--masteryarn我收到以下错误:17/06/1012:00:07WARNNativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhe
你好friend,我正在开发一个web应用程序,我需要编写一个mapreduce代码来处理来自Hadoop分布式文件系统的数据,并在reducer输出的基础上绘制各种图形,所以我在eclipse中用Java开发应用程序,所以我怎样才能做到这一点? 最佳答案 我建议您尝试使用配置单元。在包含reducer文件输出的ehive表上创建。使用JDBC或ODBC连接将数据从配置单元拉到您的前端,并使用您的图形表示形式(如饼图)。 关于web-applications-使用mapreduce编程的
我使用YARNjavaAPI而不是在终端中提交Hadoop应用程序。我正在寻找一种在应用程序完成后通过YarnAPI获取yarn聚合日志的方法。当然,这可以通过简单的命令来完成:“yarnlogs-applicationId{my_application_ID}”,但我想通过API来完成。有人知道如何使用API而不是命令行来获取这些日志吗?谢谢。 最佳答案 正如您在代码源上所做的那样https://github.com/apache/hadoop/blob/trunk/hadoop-yarn-project/hadoop-yarn/
我有大约200万条记录,每个记录大约有4个字符串字段,需要检查重复项。更具体地说,我将姓名、电话、地址和父亲姓名作为字段,我必须使用所有这些字段和其余数据来检查重复数据删除。需要将生成的唯一记录记录到数据库中。我已经能够实现mapreduce,迭代所有记录。任务速率设置为100/s,存储桶大小设置为100。启用计费。目前,一切正常,但性能非常非常慢。我已经能够在6小时内完成10,000条记录的测试数据集中的1000条记录的重复数据删除处理。java中目前的设计是:在每次map迭代中,我将当前记录与以前的记录Previousrecord是数据库中的单个记录,其作用类似于全局记录我用每个m
如何获取应用程序发送给资源管理器的待处理请求数?据我所知,资源管理器可能不会立即分配请求的资源,因此请求将被挂起,对吧? 最佳答案 我正在使用Hadoop2.7.1。从资源管理器UI中,您可以看到“未完成的资源请求”。在RM用户界面中:点击正在运行的应用程序(例如application_1447644421851_0004)在申请页面中,点击尝试ID(例如appattempt_1447644421851_0004_000001)在“应用程序尝试ID”页面中,您将看到“TotalAllocatedContainers”和“TotalO
我有一个4节点集群(1个名称节点/资源管理器3个数据节点/节点管理器)我正在尝试运行一个简单的tez示例orderedWordCounthadoopjarC:\HDP\tez-0.4.0.2.1.1.0-1621\tez-mapreduce-examples-0.4.0.2.1.1.0-1621.jarorderedwordcountsample/test.txt/sample/out作业被接受,Applicationmaster和容器被设置但是在节点管理器上我看到了这些日志2014-09-1017:53:31,982INFO[ServiceThread:org.apache.tez.
当使用以下脚本在YARN(Hadoop2.6.0.2.2.0.0-2041)上运行Spark1.3.0Pi示例时:#RunonaYARNclusterexportHADOOP_CONF_DIR=/etc/hadoop/conf/var/home2/test/spark/bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--masteryarn-cluster\--executor-memory3G\--num-executors50\/var/home2/test/spark/lib/spark-examples-1.3
我是否正确理解了客户端模式的文档?客户端模式与驱动程序在应用程序主机中运行的集群模式相反?在客户端模式下,driver和applicationmaster是独立的进程,因此spark.driver.memory+spark.yarn.am.memory必须小于机器的内存?在客户端模式下,驱动程序内存是否未包含在应用程序主内存设置中? 最佳答案 clientmodeisopposedtoclustermodewherethedriverrunswithintheapplicationmaster?是,当Spark应用程序部署在YARN