草庐IT

resource-utilization

全部标签

hadoop - yarn : How to make Yarn utilize more memory and vcores

我们有一个由Yarn管理并运行hadoop的5节点集群1Masternamenode8vcoresand24GBmemory4个数据节点,每个节点8个vcores和24GB内存当我在ui上查看Yarn配置时,如下图中突出显示的那样,它仅使用16GB和6个vcores我们的应用程序正在使用所有16gb,因此想要增加内存,因为它可用(24-2gbforos所以可用是22gb)我需要在哪里配置这个22gb而不是16gb?根据研究发现yarn-site.xml可能是这个地方所以继续更新它并重新启动yarn但它仍然显示16gb如果社区中的任何专家能提供帮助,我们将不胜感激,因为我们是Yarn的新

hadoop - pyspark.sql.utils.AnalysisException : u'Path does not exist

我正在使用标准的hdfs运行amazonemr的spark作业,而不是S3来存储我的文件。我在hdfs://user/hive/warehouse/中有一个配置单元表,但在运行我的spark作业时找不到它。我配置了spark属性spark.sql.warehouse.dir以反射(reflect)我的hdfs目录的属性,而yarn日志确实显示:17/03/2819:54:05INFOSharedState:Warehousepathis'hdfs://user/hive/warehouse/'.稍后在日志中说(页面末尾的完整日志):LogType:stdoutLogUploadTime

hadoop - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/util/Tool 中的异常

Igetbelowerrorwhenipackage(jar)andrunmydefaulthadoopjob.Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/util/Toolatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClassCond(ClassLoader.java:631)atjava.lang.ClassLoader.defineClass(ClassLoader.

hadoop - yarn : How to utilize full cluster resources?

所以我有一个带有7个工作节点的cloudera集群。30GB内存4个vCPU以下是我发现的一些配置(来自Google)对于调整我的集群性能很重要。我正在运行:yarn.nodemanager.resource.cpu-vcores=>4yarn.nodemanager.resource.memory-mb=>17GB(为操作系统和其他进程预留)mapreduce.map.memory.mb=>2GBmapreduce.reduce.memory.mb=>2GB运行nproc=>4(可用处理单元数)现在我担心的是,当我查看我的ResourceManager时,我看到可用内存为119GB,

python - 使用 Spark,如何连接 master 或解决错误 :"WARN TaskSchedulerImpl: Initial job has not accepted any resources"

请告诉我如何解决以下问题。首先,我确认以下代码在master为“本地”时运行。然后我启动了两个EC2实例(m1.large)。但是,当master为“spark://MASTER_PUBLIC_DNS:7077”时,会出现错误消息“TaskSchedulerImpl”并且失败。当我从VALID地址更改为Master(spark://INVALID_DNS:7077)的INVALID地址时,会出现相同的错误消息。即,"WARNTaskSchedulerImpl:Initialjobhasnotacceptedanyresources;检查您的集群UI以确保工作人员已注册并有足够的内存"好

Hadoop 纱 : How to limit dynamic self allocation of resources with Spark?

在我们在Yarn下运行的Hadoop集群中,我们遇到了一个问题,即一些“更聪明”的人能够通过在pySparkJupyter笔记本中配置Spark作业来消耗大得多的资源block,例如:conf=(SparkConf().setAppName("name").setMaster("yarn-client").set("spark.executor.instances","1000").set("spark.executor.memory","64g"))sc=SparkContext(conf=conf)这导致了这些人从字面上排挤其他不那么“聪明”的人的情况。有没有办法禁止用户自行分配资

java - Log4j 找不到记录器的附加程序 (org.apache.hadoop.util.shell)

我正在为我的项目使用maven。当我运行程序时出现此错误,因此我无法看到我的程序执行进度,尽管该程序正在生成预期的输出。srimanth@srimanth-Inspiron-N5110:~/CCHD&CCHA/mangoes$mvnexec:java-q-Dexec.mainClass=bananas.MapReduceColorCount-Dexec.args="hdfs://localhost:9000/users.avrofilehdfs://localhost:9000/pleaseatleastnow6"log4j:WARNNoappenderscouldbefoundfor

hadoop - yarn 不尊重 yarn.nodemanager.resource.cpu-vcores

我正在使用Hadoop-2.4.0,我的系统配置是24个内核,96GBRAM。我正在使用以下配置mapreduce.map.cpu.vcores=1yarn.nodemanager.resource.cpu-vcores=10yarn.scheduler.minimum-allocation-vcores=1yarn.scheduler.maximum-allocation-vcores=4yarn.app.mapreduce.am.resource.cpu-vcores=1yarn.nodemanager.resource.memory-mb=88064mapreduce.map.m

hadoop - `yarn.scheduler.maximum-allocation-mb` 和 `yarn.nodemanager.resource.memory-mb` 之间的区别?

yarn.scheduler.maximum-allocation-mb和yarn.nodemanager.resource.memory-mb有什么区别?我在yarn-site.xml中看到了这两个,我看到了解释here.yarn.scheduler.maximum-allocation-mb给出了以下定义:RM中每个容器请求的最大分配,以MB为单位。高于此值的内存请求将抛出InvalidResourceRequestException。这是否意味着仅在资源管理器上的内存请求受此值限制?yarn.nodemanager.resource.memory-mb给出了可以分配给容器的物理内

php - 在 Apigility Resource 中获取当前用户信息

我刚开始使用Apigility和oAuth2,我想知道在从数据库中获取信息时是否有可能获得当前经过身份验证的“已登录”用户。我目前有以下代码:/***Fetchallorasubsetofresources**@paramarray$params*@returnmixed*/publicfunctionfetchAll($params=array()){var_dump($params);//UsingZend\Db'sSQLabstraction$sql=new\Zend\Db\Sql\Sql($this->db);//Iwouldliketogetthecurrentlylogge