草庐IT

elastic-mapreduce

全部标签

hadoop - 如果输入数据源在 HDFS 中不断增加,MapReduce 作业会发生什么情况?

我们有一个与HDFS一起运行的日志收集代理,即代理(如Flume)不断收集一些应用程序的日志,然后写入HDFS。读写过程不停地运行,导致HDFS的目标文件不断增加。这里的问题是,由于输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么情况?FileInputFormat.addInputPath(job,newPath("hdfs://namenode:9000/data/collect")); 最佳答案 map-reduce作业仅处理开始时可用的数据。Map-Reduce用于批量数据处

hadoop - 在 Hadoop MapReduce 中对多个输出目录使用多个映射器

我想运行两个映射器,在不同的目录中产生两个不同的输出。第一个映射器的输出(作为参数发送)应该发送到第二个映射器的输入。我在驱动程序类中有这段代码importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apa

hadoop - 将 Hadoop MapReduce 本地资源可见性更改为 PUBLIC

有没有办法设置由hadoop通用选项-files或-archives提供的hadoopmapreduce本地资源的YARN可见性。查看yarn-site.xml我发现使用-archives选项将文件写入工作节点的位置,但基于我读过的其他文章和它所在的目录(/hadoop/yarn/local/usercache/myusername/appcache)它被视为私有(private)的。我找不到任何通用选项或-Dsome.yarn.setting将其从私有(private)更改为应用程序或更好的是公共(public)。 最佳答案 我查

hadoop - 如何向 Elastic Search 数据库添加计算?

我正在使用ElasticSearch为大量传感器数据编制索引以用于分析目的。该表有超过400万行并且增长迅速-预计明年将达到4000万。这使得ElasticSearch看起来很自然,尤其是使用Kibana等工具可以轻松显示数据。ElasticSearch看起来很棒,但是还必须执行一些更复杂的计算。一种这样的计算是针对我们的“平均用户时间”,我们在其中获取两个数据点(元素拾取的时间戳和元素放回的时间戳),将它们相互减去,然后对一个特定客户的所有这些进行平均具体时间范围。SQL查询看起来像“select*fromeventswhereevent_type='objectpickedup'o

java - 如何设计一个特殊的MapReduce倒排索引?

在这种情况下,我有很多日志。每条日志包含时间、ip、url、内容等。问题一:我想做的是确定给你一个某个词,比如'google',告诉我哪个日志的内容包含这个词。问题二:我不确定我喜欢哪个词,所以请给我整个倒排索引答案。所以,我的问题是:对于问题1,mapper&reducer如何设计?我可以使用mapper来拆分日志的内容,mapper的输出是很多k-v对.reducer应该遍历所有这些答案,如果它遇到像这样的一对。,输出。而且我还可以使用mapper处理整个内容,如果它遇到单词“google”,它会给出的输出,遇到其他词就跳过。如果映射器不满足特定的词,它什么也不输出。在这种情况下,

java - Hadoop MapReduce DistributedCache 使用

我正在尝试重现MapReduce设计模式一书中的BloomFiltering示例。在下文中,我将仅展示感兴趣的代码:publicstaticclassBloomFilteringMapperextendsMapper{privateBloomFilterfilter=newBloomFilter();protectedvoidsetup(Contextcontext)throwsIOException{URI[]files=DistributedCache.getCacheFiles(context.getConfiguration());Stringpath=files[0].get

hadoop - 如何编写 MapReduce Prog,其中 Reducers 的输出转到单个 Reducer

如何编写一个MapReduce程序,其中我的Mappers的输出转到Reducers,而Reducers的输出到另一个Reducer,但在这种情况下只有一个Reducer,所以输出的所有键值对都将转到相同的Reducer。 最佳答案 我认为您希望将多个reducer的输出直接输出到另一个reducer,这是不正确的。您将需要另一个mapreduce作业,将您的reducer输出传递给mapper并使用单个reducer获取单个输出文件。 关于hadoop-如何编写MapReducePro

python - 在没有 PuTTy/SSH 的情况下通过 Python 启动 Hadoop MapReduce 作业

我一直在通过PuTTy登录SSH来运行HadoopMapReduce作业,这需要我在PuTTY中输入主机名/IP地址、登录名和密码才能获得SSH命令行窗口。进入SSH控制台窗口后,我会提供适当的MR命令,例如:hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.1.jar-file/nfs_home/appers/user1/mapper.py-file/nfs_home/appers/user1/reducer.py-mapper'/usr/lib/py

hadoop - EC2 主机中 MapReduce 中的 SSH 错误

我已在AmazonEC2主机中安装了ApacheHadoopMapReduce2.6.1,并使用私有(private)IP地址配置了运行时。你可以在下面[2-5]查看我的配置。为了尝试轻松调试我的问题,我已允许安全组[6]中的所有入站流量。问题是,当我启动MapReduce时,我在SSHkey中得到Permissiondenied。我注意到我无法从同一主机sshEC主机。我该如何解决这个错误?ubuntu@ip-XXX-XX-XX-XX:sshubuntu@ip-XXX-XX-XX我想在EC2的不同站点上运行的HDFS实例之间复制数据。使用主机的私有(private)IP地址是否正确?

Java MapReduce 计数器 - Oozie

Java应用程序在Hadoop集群中作为具有单个Mapper任务的map-reduce作业执行。如果一个javamapreduce作业(不是hive或任何其他作业只是一个直接的mapreduce作业)是oozie的一部分,我们会得到一个单独的mapper启动器并且实际的mapreduce作业独立运行。那么有没有办法将启动器和实际的mapreduce作业运行联系起来?像获取与启动器jobid一起运行的实际操作的jobid?任何命令知道吗? 最佳答案 您可以转到oozieUI并获取此信息。单击您想要的操作,然后转到ChildJobURL