application-cache

caching - 将 URI 作为运行时变量传递给 mapreduce hadoop 中的分布式缓存

我在我的mapreduce程序中使用分布式缓存，我将三个变量传递给这个mapreduce程序inputfile、outputdir和configfile.我想添加第三个参数，即配置文件到分布式缓存。我在MapReduce驱动程序的run()方法中设置参数如下:-conf.set("CONF_XML",args[2]);如何用同样的方法将这个文件添加到分布式缓存中。我该怎么做？通常我们添加使用URI(new(filepath));DistributedCache.addCacheFile(newURI(file_path),conf); 最佳答案

mapreduce 传递 code section DistributedCache caching hadoop distributed

caching - Hadoop 分布式缓存大小的限制是多少？

我是Hadoop新手，听说分布式缓存大小最大为10GB。这个对吗？如果我的大小超过10GB怎么办，有没有更好的解决方案？最佳答案默认情况下，缓存大小为10GB。如果您想要更多内存，请在mapred-site.xml中配置local.cache.size以获得更大的值。不这样做的原因:最好在分布式缓存中保留几MB的数据。否则会影响您的应用程序的性能。关于caching-Hadoop分布式缓存大小的限制是多少？，我们在StackOverflow上找到一个类似的问题：

caching Hadoop section code stackoverflow

hadoop - 错误 : Could not find or load main class org. apache.flume.node.Application - 在 hadoop 版本 1.2.1 上安装 flume

我搭建了一个hadoop集群，其中一个是master-slave节点，另一个是slave。现在，我想建立一个水槽来获取主机上集群的所有日志。但是，当我尝试从tarball安装flume时，我总是得到:错误:无法找到或加载主类org.apache.flume.node.Application所以，请帮我找到答案，或者在我的集群上安装水槽的最佳方法。非常感谢! 最佳答案主要是因为FLUME_HOME..试试这个命令$unsetFLUME_HOME 关于hadoop-错误:Couldnotf

hadoop flume section 水槽 load installation program-entry-point

caching - Hadoop 文件中的分布式缓存未找到异常

它表明它创建了缓存文件。但是，当我查看文件不存在的位置时，当我尝试从我的映射器中读取时，它显示文件未找到异常。这是我要运行的代码:JobConfconf2=newJobConf(getConf(),CorpusCalculator.class);conf2.setJobName("CorpusCalculator2");//DistributedCachingofthefileemittedbythereducer2isdonehereconf2.addResource(newPath("/opt/hadoop1/conf/core-site.xml"));conf2.addResou

caching Hadoop conf conf2 mapred map mapreduce distributed

eclipse - 在Mapreduce中做job chaining时，如何解决chainmapper is not applicable for the arguments错误？

我正在使用Hadoop1.2.1，eclipsejuno。我正在尝试在单个Mapreduce作业中链接三个maptask。在Eclipse中编写Mapreduce代码时，出现错误，例如chainmapper不适用于参数，而且我无法设置输入路径。以下是我的mapreduce代码，packageorg.myorg;importjava.io.IOException;importjava.net.URI;importjava.nio.file.FileSystem;importjava.util.StringTokenizer;importjavax.security.auth.login.

chainmapper applicable Text import class eclipse hadoop hadoop-streaming hadoop2 hadoop-partitioning

hadoop - Storm 纱 : Application container fails to launch

我正在运行一个Storm(三叉戟)拓扑，它从kafka读取avro并将记录写入hbase。拓扑在Localcluster模式下按预期运行，但在使用Stormsubmitter时我遇到了以下问题。在分布式Hadoop模式下，我在启动YARN应用程序时收到以下错误[1]。在Hadoop中(本地模式，只有1个盒子)Yarn正在生成nimbus服务器和storm-ui。但是没有主管运行拓扑中的spout/bolt。我猜原因可能是内存不足(4G来运行拓扑+hbase、hdfs、kafka、zookeeper等...)。你能帮我理解这个容器失败的原因吗？应用程序日志中没有错误/信息。[1]YARN

Application container java 容器 hadoop apache-storm hadoop-yarn

Spring Boot : Is it possible to use external application. 带有胖 jar 的任意目录中的属性文件？

是否可以有多个application.properties文件？(编辑:请注意，此问题已演变为标题中的问题。)我尝试了2个文件。第一个位于应用程序Jar的根文件夹中。第二个在类路径中指定的目录。2个文件都被命名为“application.properties”。是否可以“合并”两个文件的内容？(并且第二个的属性值覆盖第一个)或者，如果我有一个文件，那么另一个文件会被忽略？更新1:可以“合并”内容。昨天好像第一个被忽略了，但似乎是因为当时有什么东西坏了。现在效果很好。更新2:又回来了!同样，仅应用了两个文件中的一个。这很奇怪......它是在我使用SpringToolSuite构建应用程

application external code properties spring configuration spring-boot

Spring Boot : Is it possible to use external application. 带有胖 jar 的任意目录中的属性文件？

是否可以有多个application.properties文件？(编辑:请注意，此问题已演变为标题中的问题。)我尝试了2个文件。第一个位于应用程序Jar的根文件夹中。第二个在类路径中指定的目录。2个文件都被命名为“application.properties”。是否可以“合并”两个文件的内容？(并且第二个的属性值覆盖第一个)或者，如果我有一个文件，那么另一个文件会被忽略？更新1:可以“合并”内容。昨天好像第一个被忽略了，但似乎是因为当时有什么东西坏了。现在效果很好。更新2:又回来了!同样，仅应用了两个文件中的一个。这很奇怪......它是在我使用SpringToolSuite构建应用程

application external code properties spring configuration spring-boot

MongoDB pyspark 连接器问题，[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗？详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell，然后导入pymongo_spark，最后连接到数据库；但是，当我尝试打印“helloworld”时，由于permissiondenied'/home/.cache'问题，python无法

amp MongoDB spark mongo apache-spark hadoop pyspark

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明，在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展；管道只有这么大，随着#个节点变大，到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程，其中可能有8个步骤需要此文件。当然，我可以从S3复制到HDFS并在每一步之前缓存文件，但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下，作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

大文 MapReduce section stackoverflow questions caching hadoop amazon-web-services amazon-s3 elastic-map-reduce