草庐IT

cache_store

全部标签

caching - Hadoop 文件中的分布式缓存未找到异常

它表明它创建了缓存文件。但是,当我查看文件不存在的位置时,当我尝试从我的映射器中读取时,它显示文件未找到异常。这是我要运行的代码:JobConfconf2=newJobConf(getConf(),CorpusCalculator.class);conf2.setJobName("CorpusCalculator2");//DistributedCachingofthefileemittedbythereducer2isdonehereconf2.addResource(newPath("/opt/hadoop1/conf/core-site.xml"));conf2.addResou

java - PIG : Cannot cast java. lang.String to org.apache.avro.util.Utf8 with AvroStorage inside STORE

我正在使用ApachePIG来减少最初以CSV格式存储的数据,并希望以Avro格式输出。我的PIG脚本的一部分调用了一个javaUDF,它将一些字段附加到输入元组并将修改后的元组传回。执行此操作时,我正在修改输出、PIG、架构:SchemaoutSchema=newSchema(input).getField(1).schema;SchemarecSchema=outSchema.getField(0).schema;recSchema.add(newFieldSchema("aircrafttype",DataType.CHARARRAY));在我的UDF的publicSc​​hem

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

我在pyspark和mongoDB之间建立简单的“helloworld”连接时遇到了问题(参见我正在尝试模拟的示例https://github.com/mongodb/mongo-hadoop/tree/master/spark/src/main/python)。有人可以帮我理解并解决这个问题吗?详细信息:我可以使用下面看到的--jars--conf--py-files成功运行pysparkshell,然后导入pymongo_spark,最后连接到数据库;但是,当我尝试打印“helloworld”时,由于permissiondenied'/home/.cache'问题,python无法

caching - 将一个大文件(~6 GB)从 S3 复制到 Elastic MapReduce 集群的每个节点

事实证明,在引导操作中将大文件(~6GB)从S3复制到ElasticMapReduce集群中的每个节点并不能很好地扩展;管道只有这么大,随着#个节点变大,到节点的下载会受到限制。我正在运行一个包含22个步骤的作业流程,其中可能有8个步骤需要此文件。当然,我可以从S3复制到HDFS并在每一步之前缓存文件,但这是一个主要的速度killer(并且会影响可伸缩性)。理想情况下,作业流将从每个节点上的文件开始。至少有一些StackOverflow问题间接地解决了通过作业流程持久化缓存文件的问题:Re-usefilesinHadoopDistributedcache,Lifeofdistribut

ubuntu - 权限被拒绝 : u'/opt/cloudera/parcel-cache/CDH-5. 3.3-1.cdh5.3.3.p0.5-precise.parcel.part'

我正在尝试安装具有3个节点的hadoopcloudera集群,所有这些节点都是ubuntu12.04机器。为此,我做了以下事情。我已经在所有机器上创建了hduser,并通过以下命令授予它root权限。sudoaddgrouphadoopsudoadduser--ingrouphadoophdusersudoadduserhdusersudosudosuhduser然后在所有机器上通过以下命令为无密码ssh生成无密码key。机器详细信息:master-1ip:192.168.0.101slave-1ip:192.168.0.102slave-2ip:192.168.0.103命令:ssh

hadoop - Apache pig : How to load a sequence file which is stored in hdfs?

我的序列文件直接存储在hdfs例如:grunt>lsgrunt>ls/blablahdfs://namenode1:54310/blabla/0411f03a-db7f-48d0-9542-5203304e3e81.seq185284523hdfs://namenode1:54310/blabla/05be8fc0-e967-42e1-b76a-0d7108a69d17.seq201489688hdfs://namenode1:54310/blabla/06222427-519c-49c0-bbbf-49a9f43bbd13.seq196858576hdfs://namenode1:5

hadoop - Java 映射减少 : how to store a list of LONGs in Hadoop Output

我有一个MapReduceJava程序,它输出一个数字列表作为String作为最终输出。但是数量比较长,占用空间太大。我想将每个数字转换为Long并存储。我怎样才能做到这一点? 最佳答案 ArrayWritable可以扩展为publicclassLongArrayWritableextendsArrayWritable{publicLongArrayWritable(){super(Text.class);}publicLongArrayWritable(LongWritable[]values){super(LongWritabl

java - Hadoop MapReduce : Strange Result when Storing Previous Value in Memory in a Reduce Class (Java)

如果我希望存储迭代器的当前值以与Reduce方法中迭代器的下一个值进行比较,Hadoop要求我克隆它而不是简单地将其引用分配给临时变量。我要将代码发布到我的reducer。你会看到两部分:Eclipse中测试的主要方法在Hadoop中执行的reduce方法你会注意到这两行代码是相同的,除了以下几点:main方法从我硬编码到其中的ArrayList获取Iterator,而reduce方法从mapper方法获取Iterator。main方法当然不会执行context.write。这是两者几乎共享的代码:MMIcurrentMMI=null;MMIpreviousMMI=null;Ultra

caching - 如何在 hadoop map reduce 作业中有效地缓存大文件?

我的工作流程如下:我正在处理大量数据。我有一个需要缓存的MapFile。此文件的大小现在为1GB,但我希望它最终会变大。MapFile的内容应该是这样的:12345,45464192.34.23.133214,45321123.45.32.1在map-phase中,我处理来自TextInputFormat格式的输入文件中的每条记录。我解析该行(按标记拆分)并检索前两个标记,token1和token2。如果(token1,token2)对不在缓存文件中,那么我调用API,获取信息,保存在缓存中(如果可能)并继续处理。privateParserparser=newcustomParser(

java - Hive 流和 Azure Data Lake Store 的问题

我正在编写一个Play2JavaWeb应用程序以使用HiveStreamingAPI(https://cwiki.apache.org/confluence/display/Hive/Streaming+Data+Ingest)将数据提取到HDInsight交互式查询。Hive数据存储在AzureDataLakeStore中。我松散地基于https://github.com/mradamlacey/hive-streaming-azure-hdinsight/blob/master/src/main/java/com/cbre/eim/HiveStreamingExample.java