草庐IT

application-cache

全部标签

caching - 将 URI 作为运行时变量传递给 mapreduce hadoop 中的分布式缓存

我在我的mapreduce程序中使用分布式缓存,我将三个变量传递给这个mapreduce程序inputfile、outputdir和configfile.我想添加第三个参数,即配置文件到分布式缓存。我在MapReduce驱动程序的run()方法中设置参数如下:-conf.set("CONF_XML",args[2]);如何用同样的方法将这个文件添加到分布式缓存中。我该怎么做?通常我们添加使用URI(new(filepath));DistributedCache.addCacheFile(newURI(file_path),conf); 最佳答案

caching - Hadoop 分布式缓存大小的限制是多少?

我是Hadoop新手,听说分布式缓存大小最大为10GB。这个对吗?如果我的大小超过10GB怎么办,有没有更好的解决方案? 最佳答案 默认情况下,缓存大小为10GB。如果您想要更多内存,请在mapred-site.xml中配置local.cache.size以获得更大的值。不这样做的原因:最好在分布式缓存中保留几MB的数据。否则会影响您的应用程序的性能。 关于caching-Hadoop分布式缓存大小的限制是多少?,我们在StackOverflow上找到一个类似的问题:

hadoop - 错误 : Could not find or load main class org. apache.flume.node.Application - 在 hadoop 版本 1.2.1 上安装 flume

我搭建了一个hadoop集群,其中一个是master-slave节点,另一个是slave。现在,我想建立一个水槽来获取主机上集群的所有日志。但是,当我尝试从tarball安装flume时,我总是得到:错误:无法找到或加载主类org.apache.flume.node.Application所以,请帮我找到答案,或者在我的集群上安装水槽的最佳方法。非常感谢! 最佳答案 主要是因为FLUME_HOME..试试这个命令$unsetFLUME_HOME 关于hadoop-错误:Couldnotf

caching - Hadoop 文件中的分布式缓存未找到异常

它表明它创建了缓存文件。但是,当我查看文件不存在的位置时,当我尝试从我的映射器中读取时,它显示文件未找到异常。这是我要运行的代码:JobConfconf2=newJobConf(getConf(),CorpusCalculator.class);conf2.setJobName("CorpusCalculator2");//DistributedCachingofthefileemittedbythereducer2isdonehereconf2.addResource(newPath("/opt/hadoop1/conf/core-site.xml"));conf2.addResou

eclipse - 在Mapreduce中做job chaining时,如何解决chainmapper is not applicable for the arguments错误?

我正在使用Hadoop1.2.1,eclipsejuno。我正在尝试在单个Mapreduce作业中链接三个maptask。在Eclipse中编写Mapreduce代码时,出现错误,例如chainmapper不适用于参数,而且我无法设置输入路径。以下是我的mapreduce代码,packageorg.myorg;importjava.io.IOException;importjava.net.URI;importjava.nio.file.FileSystem;importjava.util.StringTokenizer;importjavax.security.auth.login.

hadoop - Storm 纱 : Application container fails to launch

我正在运行一个Storm(三叉戟)拓扑,它从kafka读取avro并将记录写入hbase。拓扑在Localcluster模式下按预期运行,但在使用Stormsubmitter时我遇到了以下问题。在分布式Hadoop模式下,我在启动YARN应用程序时收到以下错误[1]。在Hadoop中(本地模式,只有1个盒子)Yarn正在生成nimbus服务器和storm-ui。但是没有主管运行拓扑中的spout/bolt。我猜原因可能是内存不足(4G来运行拓扑+hbase、hdfs、kafka、zookeeper等...)。你能帮我理解这个容器失败的原因吗?应用程序日志中没有错误/信息。[1]YARN

Spring Boot : Is it possible to use external application. 带有胖 jar 的任意目录中的属性文件?

是否可以有多个application.properties文件?(编辑:请注意,此问题已演变为标题中的问题。)我尝试了2个文件。第一个位于应用程序Jar的根文件夹中。第二个在类路径中指定的目录。2个文件都被命名为“application.properties”。是否可以“合并”两个文件的内容?(并且第二个的属性值覆盖第一个)或者,如果我有一个文件,那么另一个文件会被忽略?更新1:可以“合并”内容。昨天好像第一个被忽略了,但似乎是因为当时有什么东西坏了。现在效果很好。更新2:又回来了!同样,仅应用了两个文件中的一个。这很奇怪......它是在我使用SpringToolSuite构建应用程

Spring Boot : Is it possible to use external application. 带有胖 jar 的任意目录中的属性文件?

是否可以有多个application.properties文件?(编辑:请注意,此问题已演变为标题中的问题。)我尝试了2个文件。第一个位于应用程序Jar的根文件夹中。第二个在类路径中指定的目录。2个文件都被命名为“application.properties”。是否可以“合并”两个文件的内容?(并且第二个的属性值覆盖第一个)或者,如果我有一个文件,那么另一个文件会被忽略?更新1:可以“合并”内容。昨天好像第一个被忽略了,但似乎是因为当时有什么东西坏了。现在效果很好。更新2:又回来了!同样,仅应用了两个文件中的一个。这很奇怪......它是在我使用SpringToolSuite构建应用程

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗?详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell,然后导入pymongo_spark,最后连接到数据库;但是,当我尝试打印“helloworld”时,由于permissiondenied'/home/.cache'问题,python无法

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明,在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展;管道只有这么大,随着#个节点变大,到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程,其中可能有8个步骤需要此文件。当然,我可以从S3复制到HDFS并在每一步之前缓存文件,但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut