草庐IT

distributed-cache

全部标签

hadoop DistributedCache 返回 null

我正在使用hadoopDistributedCache,但我遇到了一些麻烦。我的hadoop处于伪分布式模式。fromherewecanseeinpseudo-distributedmodeweuseDistributedCache.getLocalCache(xx)toretrivecachedfile.首先我将我的文件放入DistributedCache:DistributedCache.addCacheFile(newPath("hdfs://localhost:8022/user/administrator/myfile").toUri(),job.getConfigurati

Hadoop分布式缓存错误信息解读

我正在尝试将3个文件放入分布式缓存中。我以编程方式放置其中一个,使用:DistributedCache.addLocalFiles(conf,"local/path/to/file");我还使用-files选项放置了另外2个文件。在本地以独立模式运行时,一切正常。当试图以伪分布式模式运行它时,我得到了这个错误,我不明白它的意思。我用谷歌搜索但没有成功。Distributedcacheentryarrayshavedifferentlengths有谁知道这意味着什么以及如何解决? 最佳答案 问题源于我正在将本地文件添加到缓存中。相反,

hadoop - 为什么我们在hadoop中使用分布式缓存?

无论如何,mapreduce框架中有很多跨节点的文件传输。那么分布式缓存的使用是如何提高性能的。 最佳答案 DistributedCache是Map-Reduce框架提供的一种设施,用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件,hadoop框架将使它在你运行映射/reducetask的每个数据节点(在文件系统中,而不是在内存中)上可用。文件通过网络传输,通常通过HDFS。与将HDFS用于任何非数据本地任务相比,它不会对网络造成更多压力。 关于hadoop-为什么我们在had

hadoop - 从 Pig UDF Java 类中的分布式缓存访问文件,Amazon EMR

我正在尝试访问UDF中的文件(sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊EMR来运行Pig作业。我在创建集群时使用EMRbootstrap-action将文件(sample.txt)复制到HDFS。bootstrap.sh(将文件从s3复制到hdfs)hadoopfs-copyToLocals3n://s3_path/sample.txt/mnt/sample.txtUsingSample.java(使用sample.txt的UDF)publicclassUsingSampleextendsEvalFunc{publicStringuseSam

缓存cache和缓冲buffer的区别

目录缓存(cache)浏览器缓存内存缓存redis缓冲(buffer)java实现BufferedInputStreamBufferedOutputStreamBufferedReaderBufferedWriter数据库中的joinbuffer总结近期被这两个词汇困扰了,感觉有本质的区别,搜了一些资料,整理如下计算机内部的几个部分图如下缓存(cache)https://baike.baidu.com/item/%E7%BC%93%E5%AD%98提到缓存(cache),就想到了cpu高速缓存,其实最开始的缓存也是这个。目的就是为了让cpu和内存之间的数据交互速度变快设计的。从下到上访问速度依

【从零开始学习Redis | 第四篇】基于延时双删对Cache Aside的优化

前言:    在如今的单体项目中,为了减轻大量相同请求对数据库的压力,我们采取了缓存中间件Redis。核心思想为:把数据写入到redis中,在查询的时候,就可以直接从Redis中拿取数据,这样我们原本对数据库的磁盘操作就变为了对Redis的内存操作,大大减轻了服务器大大压力,但是一个新的问题却应运而生:如何保持缓存与数据库数据的一致性?目录前言:常见的策略:CacheAsidePattern:基于延时双删的对CacheAside的优化为什么不使用锁? 总结:这样的场景其实很常见:假设线程A对数据库进行了修改,而由于我们的设置,B线程拿取数据是从缓存中拿取的,这就意味着数据库的数据与缓存出现了不

apache-spark - Spark 独立集群 :Configuring Distributed File System

我刚刚从Spark本地设置迁移到Spark独立集群。显然,加载和保存文件不再有效。我了解我需要使用Hadoop来保存和加载文件。我的Spark安装是spark-2.2.1-bin-hadoop2.7问题1:我仍然需要单独下载、安装和配置Hadoop以与我的独立Spark集群一起工作,我是否正确?问题2:使用Hadoop运行和使用Yarn运行有什么区别?...哪个更容易安装和配置(假设数据负载相当轻)? 最佳答案 A1。正确的。你提到的包只是打包了指定版本的hadoop客户端,如果你想使用hdfs,你仍然需要安装hadoop。A2。使

Hadoop:从 DistributedCache 获取文件时出现 FileNotFoundExcepion

我有2个节点集群(v1.04),主节点和从节点。在master上,在Tool.run()中,我们使用addCacheFile()将两个文件添加到DistributedCache。文件确实存在于HDFS中。在Mapper.setup()中,我们希望使用从缓存中检索这些文件FSDataInputStreamfs=FileSystem.get(context.getConfiguration()).open(path).问题是对于一个文件抛出一个FileNotFoundException,尽管该文件存在于从属节点上:attempt_201211211227_0020_m_000000_2:j

hadoop - 如何在 Hadoop Mapreduce 作业中访问分布式缓存?

我正在尝试将一个小文件传递到我正在使用GenericOptionsParser的-files标志运行的作业:$hadoopjarMyJob.jar-conf/path/to/cluster-conf.xml-files/path/to/local-file.csvdata/inputdata/output这应该将作业发送到我的集群并附加local-file.csv以在需要时提供给Mapper/Reducer。当我在伪分布式模式下运行它时效果很好,但是当我在集群上启Action业时似乎找不到该文件。我正在我的映射器的setup方法中读取文件,如下所示:publicstaticclassT

Hadoop DistributedCache 无法报告状态

在Hadoop作业中,我正在映射多个XML文件并为每个元素过滤ID(from-tags).因为我想将作业限制在一组特定的ID中,所以我读入了一个大文件(2.7GB中大约有2.5亿行,每行只有一个整数作为ID)。所以我使用了DistributedCache,解析setup()中的文件带有BufferedReader的Mapper方法,并将ID保存到HashSet。现在一开始工作,我得到了无数Taskattempt_201201112322_0110_m_000000_1failedtoreportstatus.Killing!在执行任何map作业之前。该集群由40个节点组成,并且自Dis