草庐IT

vm_enough_memory

全部标签

hadoop - yarn : How to make Yarn utilize more memory and vcores

我们有一个由Yarn管理并运行hadoop的5节点集群1Masternamenode8vcoresand24GBmemory4个数据节点,每个节点8个vcores和24GB内存当我在ui上查看Yarn配置时,如下图中突出显示的那样,它仅使用16GB和6个vcores我们的应用程序正在使用所有16gb,因此想要增加内存,因为它可用(24-2gbforos所以可用是22gb)我需要在哪里配置这个22gb而不是16gb?根据研究发现yarn-site.xml可能是这个地方所以继续更新它并重新启动yarn但它仍然显示16gb如果社区中的任何专家能提供帮助,我们将不胜感激,因为我们是Yarn的新

java - 无法在 Cloudera VM 中使用 java(在 Eclipse 中)连接到 hbase

我正在尝试在ClouderaVM中使用Java(在Eclipse中)连接到Hbase,但出现以下错误。能够在命令行中运行相同的程序(通过将我的程序转换为jar)我的java程序`importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.hadoop.hbase.HTableDescriptor;importorg.apache.had

hadoop - pig : Container is running beyond physical memory limits in cdh 5 using oozie

我正在尝试运行一个简单的pig脚本,该脚本在gruntshell中运行f9但不使用oozie,出现如下错误:容器[pid=2617,containerID=container_1438923434512_12103_01_000002]正在超出物理内存限制运行。当前使用情况:已使用1.0GB的1GB物理内存;使用了2.9GB的2.1GB虚拟内存。杀死容器。container_1438923434512_12103_01_000002..的进程树转储..实际上我正在通过oozie调用一个shell脚本,实习生调用pig脚本并得到这样的错误。我怎样才能让它在oozie中可用

hadoop - Spark : Out Of Memory Error when I save to HDFS

我在保存大数据到hdfs时出现OOMEvalaccumulableCollection=sc.accumulableCollection(ArrayBuffer[String]())valrdd=textfile.filter(row=>{if(row.endsWith(",")){accumulableCollection+=rowfalse}elseif(row.length{varvalid=truefor((k,v)我在spark-submit中使用这个:--num-executors2--driver-memory1G--executor-memory1G--executor

java - mapreduce.reduce.shuffle.memory.limit.percent、mapreduce.reduce.shuffle.input.buffer.percent 和 mapreduce.reduce.shuffle.merge.percent

我只是想验证我对这些参数及其关系的理解,如果我错了请通知我。mapreduce.reduce.shuffle.input.buffer.percent告诉分配给reducer的整个洗牌阶段的内存总量。mapreduce.reduce.shuffle.memory.limit.percent告诉单个shuffle可以从mapreduce.reduce.shuffle.input消耗的内存限制的最大百分比.buffer.percent.mapreduce.reduce.shuffle.merge.percent是启动内存中合并的使用阈值,表示为总内存的百分比(mapreduce.reduc

python - Pyspark java.lang.OutOfMemoryError : Requested array size exceeds VM limit 错误

我正在运行Pyspark作业:spark-submit--masteryarn-client--driver-memory150G--num-executors8--executor-cores4--executor-memory150Gbenchmark_script_1.pyhdfs:///tmp/data/sample150k128hdfs:///tmp/output/sample150k|tee~/output/sample150k.log工作本身非常标准。它只是抓取一些文件并对它们进行计数。:print(str(datetime.now())+"-Ingestingfiles

hadoop - Quickstart VM Cloudera parcel 无法启动

我无法理解ClouderaQuickstartVM的某些内容。让我尝试通过概述到目前为止的步骤来进行解释。我想使用Kafka编写一些东西来连接到网络服务并获取数据源。我将使用Cloudera5.5quickstartVM作为我的Playground。我需要从包裹中安装CDH,然后才能获得Kafka。通过https://community.cloudera.com/t5/Apache-Hadoop-Concepts-and/cloudera-manager-5-4-0-installing-kafka-parcel-fails/td-p/30615我在ClouderaVM的桌面上看到一个

java - OpenJDK 客户端 VM - 无法分配内存

我在集群上运行Hadoopmapreduce作业。我收到此错误。OpenJDKClientVMwarning:INFO:os::commit_memory(0x79f20000,104861696,0)failed;error='Cannotallocatememory'(errno=12)ThereisinsufficientmemoryfortheJavaRuntimeEnvironmenttocontinue.Nativememoryallocation(malloc)failedtoallocate104861696bytesforcommittingreservedmemor

eclipse - 在 VM 中访问 Hadoop 后 Eclipse Europa 中的 DFS 位置

我是hadoop的新手。我需要安装它并试用示例。所以我提到了这个tutorial.我已经安装了该教程中给出的Sandbox。我需要在Windows中配置ECLIPSE,并在教程中给出下图中指定的VM位置。我已经安装了eclipseeuropa和hadoop插件。然后在Map/ReduceLocations中,我为主机名提供了VMIp,在UserName中提供了Linux用户名,在Map/Reduce端口中提供了9001,在DFS端口中提供了9000。在“高级”选项卡中,我将mapred.system.dir的值设置为/hadoop/mapred/system并且没有hadoop.job

memory - Hadoop Namenode 元数据 - fsimage 和编辑日志

我知道fsimage在启动时加载到内存中,并且出于性能原因,任何进一步的事务都会添加到编辑日志而不是fsimage。当namenode重启时,内存中的fsimage会被刷新。为了提高效率,secondarynamenode会定期做一个checkpoint来更新fsimage,这样namenode的恢复会更快。这些都很好。但是我不明白的一点是,假设一个文件已经存在并且关于这个文件的信息在内存中的fsimage中。现在我将此文件移动到另一个位置,该位置在编辑日志中更新。现在,当我尝试列出旧文件路径时,它会提示它不存在或其他什么。这是否意味着namenode也会查看编辑日志,这与内存中的fs