草庐IT

cache_result

全部标签

caching - Hadoop 文件中的分布式缓存未找到异常

它表明它创建了缓存文件。但是,当我查看文件不存在的位置时,当我尝试从我的映射器中读取时,它显示文件未找到异常。这是我要运行的代码:JobConfconf2=newJobConf(getConf(),CorpusCalculator.class);conf2.setJobName("CorpusCalculator2");//DistributedCachingofthefileemittedbythereducer2isdonehereconf2.addResource(newPath("/opt/hadoop1/conf/core-site.xml"));conf2.addResou

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗?详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell,然后导入pymongo_spark,最后连接到数据库;但是,当我尝试打印“helloworld”时,由于permissiondenied'/home/.cache'问题,python无法

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明,在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展;管道只有这么大,随着#个节点变大,到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程,其中可能有8个步骤需要此文件。当然,我可以从S3复制到HDFS并在每一步之前缓存文件,但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

增大max_result_window是错的,ES只能查询前10000条数据的正确解决方案

文章目录1、问题现象描述2、错误的解决方案2.1使用`max_result_window`的错误解决方案2.2官方对`max_result_window`参数的解释2.3官方推荐的解决方案3、问题原理剖析4、关于`max_result_window`参数的正确理解4.1`max_result_window`参数的具体含义4.2如果正确设置`max_result_window`参数5、底层原理详解及正确的解决方案1、问题现象描述Resultwindowistoolarge,from+sizemustbelessthanorequalto[10000]butwas[xxxxx].2、错误的解决方案

java - 找不到值类 : 'org.apache.hadoop.hbase.client.Result' 的序列化程序

我正在尝试从HBase中读取数据并将其保存为sequenceFile,但是得到java.io.IOException:CouldnotfindaserializerfortheValueclass:'org.apache.hadoop.hbase.client.Result'.Pleaseensurethattheconfiguration'io.serializations'isproperlyconfigured,ifyou'reusingcustomserialization.错误。我看到了两个相似的帖子:hadoopwritablesNotSerializableExcepti

ubuntu - 权限被拒绝 : u'/opt/cloudera/parcel-cache/CDH-5. 3.3-1.cdh5.3.3.p0.5-precise.parcel.part'

我正在尝试安装具有3个节点的hadoopcloudera集群,所有这些节点都是ubuntu12.04机器。为此,我做了以下事情。我已经在所有机器上创建了hduser,并通过以下命令授予它root权限。sudoaddgrouphadoopsudoadduser--ingrouphadoophdusersudoadduserhdusersudosudosuhduser然后在所有机器上通过以下命令为无密码ssh生成无密码key。机器详细信息:master-1ip:192.168.0.101slave-1ip:192.168.0.102slave-2ip:192.168.0.103命令:ssh

java - Hadoop MapReduce : Strange Result when Storing Previous Value in Memory in a Reduce Class (Java)

如果我希望存储迭代器的当前值以与Reduce方法中迭代器的下一个值进行比较,Hadoop要求我克隆它而不是简单地将其引用分配给临时变量。我要将代码发布到我的reducer。你会看到两部分:Eclipse中测试的主要方法在Hadoop中执行的reduce方法你会注意到这两行代码是相同的,除了以下几点:main方法从我硬编码到其中的ArrayList获取Iterator,而reduce方法从mapper方法获取Iterator。main方法当然不会执行context.write。这是两者几乎共享的代码:MMIcurrentMMI=null;MMIpreviousMMI=null;Ultra

caching - 如何在 hadoop map reduce 作业中有效地缓存大文件?

我的工作流程如下:我正在处理大量数据。我有一个需要缓存的MapFile。此文件的大小现在为1GB,但我希望它最终会变大。MapFile的内容应该是这样的:12345,45464192.34.23.133214,45321123.45.32.1在map-phase中,我处理来自TextInputFormat格式的输入文件中的每条记录。我解析该行(按标记拆分)并检索前两个标记,token1和token2。如果(token1,token2)对不在缓存文件中,那么我调用API,获取信息,保存在缓存中(如果可能)并继续处理。privateParserparser=newcustomParser(

caching - 如何从 hadoop 缓存图像以及如何隐藏 url 中给定的端口号

http://testing:50070/webhdfs/v1/Test/asaw4zds_ssdf4_ht35-9a1a-4a7b-9n.jpg?op=OPEN我正在使用webhdfs通过hadoop获取上面的图像我想将此图像缓存在浏览器如何做到这一点是否有任何机制来缓存来自hadoop的图像以及如何隐藏此url中的端口号 最佳答案 我对webhdfs不熟悉,但如果它不支持缓存,你必须在客户端和webhdfs服务器之间放置一个缓存层。好吧,您需要的是启用缓存功能的反向代理。有几种选择如何做到这一点,但你应该选择Apachemod_

caching - Hadoop分布式缓存的困惑

分布式缓存的实际含义是什么?在分布式缓存中有一个文件意味着它在每个数据节点中都可用,因此不会有该数据的节点间通信,或者这是否意味着该文件在每个节点的内存中?如果没有,我可以通过什么方式在内存中为整个作业创建一个文件?这可以同时用于map-reduce和UDF吗..(特别是有一些配置数据,相对较小,我想保留在内存中,因为UDF应用于配置单元查询...?)感谢和问候,德鲁夫·卡普尔。 最佳答案 DistributedCache是Map-Reduce框架提供的一种设施,用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件,hadoo