草庐IT

elastic-mapreduce

全部标签

hadoop - 如何使用 Hadoop 开始使用 MapReduce?

我听说过Hadoop,但我还可以用什么来开始这个主题...还有哪些其他API?一般需要什么来开始在这里编程?你推荐什么来学习这个有趣的问题 最佳答案 转到homepage的项目,尽可能多地阅读它,在你的本地机器上设置它。按照thissite中的说明进行操作用于设置它。如果你想更深入,我推荐这两本书:Hadoop:ThedefinitiveguideProhadoop 关于hadoop-如何使用Hadoop开始使用MapReduce?,我们在StackOverflow上找到一个类似的问题:

.net - 在 .NET 中使用 Thrift 在 Hbase 上进行 MapReduce?

我可以使用HadoopStreaming在.NET中使用thrift在HBase上运行MapReduce作业吗?或者是否有任何其他方法可以从.NET在HBase上运行MapReduce作业? 最佳答案 您还可以使用RESTAPI(stargate)。然而,thrift或stargate服务器都不是运行MapReduce作业的好方法。两者都需要一个单独的守护进程,这将成为一个单一的争论点,并且不会提供数据局部性。Javamapreduceapi识别输入拆分的数据局部区域。所以关键是将javaapi与.Net一起使用。Thisquest

hadoop - 连接 Elastic Map Reduce ruby​​ 客户端时出错

我正在按照AWS上提到的步骤使用SSH使用交互式Hivesession。我使用了以下资源https://github.com/ucbtwitter/getting-started/wiki/Using-Elastic-Map-Reduce-via-Command-Linehttp://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/SignUp.html我最初收到此错误“错误:缺少key访问ID”,然后我修复了我的JSON文件。JSON文件的格式与上述链接中提到的格式相同。当我运行这个命令时.

具有已排序文件的 Hadoop MapReduce

我正在使用HadoopMapReduce。我在HDFS中有数据并且每个文件中的数据已经排序。是否可以强制MapReduce在map阶段后不对数据求助?我试图将map.sort.class更改为无操作,但它不起作用(即数据未按我的预期排序)。有没有人尝试过做类似的事情并成功实现了? 最佳答案 我觉得这取决于你想要什么样的结果,排序的结果还是未排序的结果?如果你需要对结果进行排序,我认为hadoop不适合做这个工作。有两个原因:INPUTDATA将存储在不同的block中(如果足够大)并分成多block。每个拆分将映射到一个map任务,

hadoop - 将数据同步到 HBase/HDFS 并将其用作 MapReduce 作业的输入

我想将数据同步到Hadoop文件系统。此数据旨在用作计划的MapReduce作业的输入。这个例子可能会解释更多:假设我有一个包含一堆词的文档输入流,这些词需要作为MapReduceWordCount作业的输入。因此,对于每个文档,所有的单词都应该被解析出来并上传到文件系统。但是,如果同一文档再次从输入流到达,我只希望从文件系统上传(或删除)更改。数据应该如何存储;我应该使用HDFS还是HBase?数据量不是很大,大概几GB。是否可以使用来自HDFS和/或HBase的输入启动计划的MapReduce作业? 最佳答案 我会首先选择最适合

字节跳动 MapReduce - Spark 平滑迁移实践

摘要:本文整理自字节跳动基础架构工程师魏中佳在本次CommunityOverCodeAsia2023中的《字节跳动MapReduce-Spark平滑迁移实践》主题演讲。随着字节业务的发展,公司内部每天线上约运行100万+Spark作业,与之相对比的是,线上每天依然约有两万到三万个MapReduce任务,从大数据研发和用户角度来看,MapReduce引擎的运维和使用也都存在着一系列问题。在此背景下,字节跳动Batch团队设计并实现了一套MapReduce任务平滑迁移Spark的方案,该方案使用户仅需对存量作业增加少量的参数或环境变量即可完成从MapReduce到Spark的平缓迁移,大大降低了迁

java - 从mapreduce解析并写入日志数据到hive

我编写了一个小型hadoop映射程序来从其他应用程序生成的日志文件中解析(正则表达式)信息。我找到了这篇文章http://www.nearinfinity.com//blogs/stephen_mouring_jr/2013/01/04/writing-hive-tables-from-mapreduce.html本文讲解如何解析写入hive表这是我的代码importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;imp

hadoop - 为什么有时mapreduce Average Reduce Time 是负数?

我在hadoop集群上运行mapreduce作业。我在浏览器中看到的job运行时间master:8088和master:19888(jobhistoryserverwebUI)如下:主人:8088大师:19888我有两个问题:为什么两张图片的耗时不同?为什么有时平均减少时间是负数? 最佳答案 看起来AverageReduceTime是基于之前任务(洗牌/合并)完成所花费的时间,而不一定是reduce实际运行所花费的时间。看着这个sourcecode您可以看到在第300行附近发生的相关计算。if(attempt.getState()=

在 hadoop 和 mapreduce 上运行 R 脚本

我有一个R脚本,可以处理一堆推文,我想对相同的数据使用相同的脚本,但保存在Hadoop文件系统中。根据thisHortonworks教程我可以使用R代码处理我的HDFS中的数据,但不是很清楚。我可以使用完全相同的R脚本,利用mapreduce范例,通过使用RevolutionR吗?我应该更改我的代码还是有办法执行针对Hadoop架构优化的相同功能?我的愿望是在像R-Studio这样的标准RIDE上编写我的代码,然后在我的云服务(例如MicrosoftAzure)上使用它,或者使用它的大部分,以mapreduce为基础。 最佳答案 是

Hadoop:迭代 MapReduce 性能

对于相同逻辑的非并行计算来说,主要是当训练数据量过大时,迭代MapReduce的并行计算是否合理?我知道启动MapReduce作业会产生开销。当需要大量迭代时,这对于整体执行时间可能至关重要。我可以想象,在许多情况下,只要内存允许保存数据集,顺序计算就会比使用迭代MapReduce的并行计算更快。 最佳答案 如果单台机器在大多数情况下完成工作,那么任何并行处理系统都没有多大意义。与大多数并行化任务相关的复杂性非常重要,需要有充分的理由来使用它。即使很明显如果不在可接受的时间内进行并行处理就无法解决任务,并行执行框架也有不同的风格:从