草庐IT

appengine-mapreduce

全部标签

java - Hbase 扫描与 Mapreduce 的动态计算

我需要计算HBase表的聚合。假设我有这个hbase表:'metadata'列族:M列:n这里的元数据对象有一个字符串列表类元数据{列出标签;我需要计算我考虑使用mapreduce或直接扫描hbase的标签的数量。结果必须即时返回。那么在这种情况下我可以使用哪个呢?扫描hbase并计算聚合或mapreduce?Mapreduce最终将扫描hbase并计算计数。使用这两种方法的优缺点是什么? 最佳答案 我怀疑你不知道HBase的优缺点,它不适合计算大型数据集的实时聚合。首先让我们说MapReduce本身是一个计划作业,您将无法即时返回

java - MapReduce 作业 : weird output?

我正在编写我的第一个MapReduce作业。事情很简单:只计算文件中的字母数字字符。我已经完成生成我的jar文件并运行它,但除了调试输出之外,我找不到MR作业的输出。你能帮帮我吗?我的应用类:importCharacterCountMapper;importCharacterCountReducer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Int

rmr2 mapreduce csv 列子集

我有一个非常大的CSV文件,其中包含42个变量和200000条记录。我想通过mapreduce(localbackend)处理它,但我总是得到以下错误:Error:cannotallocatevectorofsize15.6GbInaddition:Warningmessages:1:closingunusedconnection3(C:\Users\LSZL~1\AppData\Local\Temp\RtmpgJ2FXm\filea302f8a7363)2:Inpaste(rep(l,length(lvs)),rep(lvs,each=length(l)),sep=sep):Reac

java - mapreduce 作业未与 LocalJobRunner 一起运行

嘿伙计们,这听起来可能有点幼稚,但我是mapreduce的新手我正在实现一个mapreduce作业,我在map和reducesides中有一些sysout语句,只是为了查看map和reducesides中会发生什么,但是在作业完成后job.waitForCompletion()返回false作业失败了我试着调试它,但没有发现任何可疑的东西,所以把代码贴在这里CustomKey.javapackagecom.example.secondarysort;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Tex

hadoop - amazon s3n 与 hadoop mapreduce 的集成不起作用

我正在尝试对存储在amazons3中的文件运行一些mapreduce作业。我看到了http://wiki.apache.org/hadoop/AmazonS3并按照它进行集成。这是我的代码,它为mapreduce作业设置输入目录FileInputFormat.setInputPaths(job,"s3n://myAccessKey:mySecretKey@myS3Bucket/dir1/dir2/*.txt");当我运行mapreduce作业时出现此异常Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:s

java - Cassandra Hadoop MapReduce : java. lang.ClassCastException : java. util.HashMap 无法转换为 java.nio.ByteBuffer

我正在尝试使用ApacheCassandra创建mapreduce作业。输入日期来自cassandra,输出也转到cassandra。该程序尝试从名为tweetstore的表中选择所有数据,然后插入包含用户名的行数。这是mapreduce作业的主要类:packagecom.cassandra.hadoop;importjava.io.*;importjava.lang.*;importjava.util.*;importjava.nio.ByteBuffer;importorg.apache.commons.lang.StringUtils;importorg.apache.hadoo

hadoop - core-site.xml在mapreduce程序中的使用

我见过mapreduce程序使用/添加core-site.xml作为程序中的资源。core-site.xml是什么或如何在mapreduce程序中使用? 最佳答案 来自documentation,除非明确关闭,否则Hadoop默认指定两个资源,从类路径按顺序加载:core-default.xml:hadoop的只读默认值,core-site.xml:给定hadoop安装的站点特定配置Configurationconfig=newConfiguration();config.addResource(newPath("/user/had

java - 在 MapReduce 类中打印

我有这个MapReduce示例[1],我想在标准输出和日志文件中打印信息[3]。日志似乎没有打印任何东西。如何使我的map类打印输出?我还配置了yarn-site.xml以保留日志[2]。尽管日志保留在/app-logs目录中,但包含作业执行输出的userlogs目录会在作业执行结束时被删除。如何让MapReduce不删除userlogs目录中的文件?我正在使用Yarn。谢谢,[1]仅包含map部分的Wordcount示例。publicclassMyWordCount{publicstaticclassMyMapextendsMapper{Loglog=LogFactory.getLo

java - 我们可以在 mapreduce 代码中将一些计算任务放在映射器类的设置方法中吗

我在映射器类中使用了setup()方法。还有一个用户定义的方法aprioriGenK()在映射器类中定义并在map()方法中调用。现在的问题是:据我所知,为每一行输入调用了map方法。假设有100行,那么这个方法调用了100次。map方法每次相应地调用aprioriGenK方法。但是不需要每次调用map方法时都在map方法内部调用aprioriGenK。即aprioriGenK方法的结果对于map方法的所有输入行都是通用的。aprioriGenK方法非常占用CPU,因此在一次又一次调用时会增加计算时间。我们能否以某种方式管理一次调用aprioriGenK并每次都在map方法中使用它。我

java - Hadoop 设置最大并发 mapreduce 任务在伪模式下不起作用

我在单台机器(4核)中配置了hadoop2.4.1以使用Psedue分布式模式,并且我能够通过HDFS输入文件上的hadoopshell命令运行我的map/reduce程序。但我注意到map和reduce看起来仍然在单线程中运行。因此,我尝试将属性mapreduce.tasktracker.map.tasks.maximum和mapreduce.tasktracker.reduce.tasks.maximum都硬编码为4。(只是为了尝试,我知道这不是理想的设置)。但我仍然看到map和reduce任务串行运行。我的配置方式是修改etc/hadoop/mapred-site.xml以包含以