草庐IT

memory_cache

全部标签

apache-spark - 如何增加在 Yarn UI 上显示的 "memory total"?

我在EMR(emr-5.20.0)上有一个集群,其中一个m5.2xlarge作为NodeMaster,两个m4.large作为core,三个m4.large作为nodeworker。该集群的内存内存总和为62GB,但在YARNUI中显示的总内存为30GB。有人可以帮助我了解这个值是如何计算的吗?我已经检查了Yarn-site.xml和spark-default.conf中的配置,它们是根据AWS推荐配置的:https://docs.aws.amazon.com/pt_br/emr/latest/ReleaseGuide/emr-hadoop-task-config.html#emr-h

memory - 比较使用 Map Reduce(Cloudera Hadoop 0.20.2)两个大小接近 3GB 的文本文件

我正在尝试在hadoopmap/reduce(用java、linux内核操作系统编写)中执行以下操作文本文件'rules-1'和'rules-2'(总共3GB大小)包含一些规则,每个规则由结束符分隔,因此可以使用readLine()函数读取文件。这些文件“rules-1”和“rules-2”需要作为一个整体从hdfs导入到我集群中的每个映射函数中,即这些文件不能跨不同的映射函数拆分。映射器的map函数的输入是一个名为“record”的文本文件(每行以结束符结束),因此我们从“record”文件中获取(键,值)对。该文件是可拆分的,可以作为整个map/reduce过程中使用的不同map函

hadoop - 配置单元 : remove stuff from distributed cache

我可以通过以下方式将内容添加到分布式缓存addfilelargelookuptable然后运行一堆HQL。现在当我有一系列命令时,如下所示addfilelargelookuptable1;selectblahfromblahnessusingsomehowlargelookuptable1;addfilelargelookuptable2;selectnewblahfromotherblahusinglargelookuptable2;在这种情况下,largelookuptable1对于第二个查询来说是不必要的。有没有办法在第二个查询运行之前摆脱它? 最佳答

caching - 将 URI 作为运行时变量传递给 mapreduce hadoop 中的分布式缓存

我在我的mapreduce程序中使用分布式缓存,我将三个变量传递给这个mapreduce程序inputfile、outputdir和configfile.我想添加第三个参数,即配置文件到分布式缓存。我在MapReduce驱动程序的run()方法中设置参数如下:-conf.set("CONF_XML",args[2]);如何用同样的方法将这个文件添加到分布式缓存中。我该怎么做?通常我们添加使用URI(new(filepath));DistributedCache.addCacheFile(newURI(file_path),conf); 最佳答案

Hadoop 参数 mapreduce.map.memory.mb 和 mapreduce.map.java.opts

想知道这两个参数(mapreduce.map.memory.mb和mapreduce.map.java.opts)之间的关系是什么,有时我看到人们将mapreduce.map.memory.mb设置为2048和mapreduce.map.java.opts为-Xmx4G-Xms4G-server,想知道这种情况下的上限是多少?谢谢。问候,林 最佳答案 mapreduce.map.memory.mb是map的资源限制。mapreduce.map.java.opts是映射子jvms的堆大小。Hadoop设置更像是一种资源实现/控制,而J

caching - Hadoop 分布式缓存大小的限制是多少?

我是Hadoop新手,听说分布式缓存大小最大为10GB。这个对吗?如果我的大小超过10GB怎么办,有没有更好的解决方案? 最佳答案 默认情况下,缓存大小为10GB。如果您想要更多内存,请在mapred-site.xml中配置local.cache.size以获得更大的值。不这样做的原因:最好在分布式缓存中保留几MB的数据。否则会影响您的应用程序的性能。 关于caching-Hadoop分布式缓存大小的限制是多少?,我们在StackOverflow上找到一个类似的问题:

caching - Hadoop 文件中的分布式缓存未找到异常

它表明它创建了缓存文件。但是,当我查看文件不存在的位置时,当我尝试从我的映射器中读取时,它显示文件未找到异常。这是我要运行的代码:JobConfconf2=newJobConf(getConf(),CorpusCalculator.class);conf2.setJobName("CorpusCalculator2");//DistributedCachingofthefileemittedbythereducer2isdonehereconf2.addResource(newPath("/opt/hadoop1/conf/core-site.xml"));conf2.addResou

hadoop - RM UI 中的 YARN "Memory Used"是 spark-shell 请求的两倍

spark-shell开始使用:spark-shell--masteryarn--executor-memory4G--num-executors100我期望yarn为spark-shell分配大约400GB的内存,但是当我转到RMUI时,它显示“已使用的内存”增加了大约804GB。我正在运行HDP2.5,在yarn-site.xml中将yarn.scheduler.minimum-allocation-mb设置为4096。对这是怎么发生的感到困惑。原来是spark内存开销和yarn内存分配机制的问题,查看:http://www.wdong.org/spark-on-yarn-wher

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗?详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell,然后导入pymongo_spark,最后连接到数据库;但是,当我尝试打印“helloworld”时,由于permissiondenied'/home/.cache'问题,python无法

java - 如何在HBase中设置In-Memory

我已经在我的HDFS0.20.0上启动并运行了HBase0.94.0。我正在做作业,我必须将我的列族放入In-Memory我有两个列族No和Subject。将它们设置为In-Memory之后newHColumnDescriptor("No").setInMemory(true);newHColumnDescriptor("Subject").setInMemory(true);当我检查我的localhost:60010时,表的详细信息仍然显示IN_MEMORY=>'false'为什么会这样?我需要的不仅仅是设置.setInMemory(true) 最佳答案