草庐IT

mapReduce

全部标签

hadoop - 如何开始学习hadoop

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我是一名网络开发人员。我在JavaScript、Jquery、Php、HTML等Web技术方面有经验。我知道C的基本概念。最近我有兴趣学习更多关于ma​​preduce和hadoop的知识。因此,我在我的大学注册了ma​​preduce中的并行数据处理类(class)。由于我之前没有任何面向对象语言(如Java或C++)的编程知识,我应该如何学习mapreduce和hadoop。我已经开始阅读Yahooh

map - Hadoop:键和值在输出文件中以制表符分隔。如何做到以分号分隔?

我认为标题已经解释了我的问题。我要改变key(tabspace)value进入key;value在所有输出文件中,reducer从映射器的输出中生成。我无法使用谷歌找到关于此的良好文档。任何人都可以提供一小部分代码来说明如何实现这一目标吗? 最佳答案 将配置属性mapred.textoutputformat.separator设置为";" 关于map-Hadoop:键和值在输出文件中以制表符分隔。如何做到以分号分隔?,我们在StackOverflow上找到一个类似的问题:

hadoop - 我从哪里开始分布式计算?

我对学习分布式计算技术很感兴趣。作为Java开发人员,我可能愿意从Hadoop开始。.您能否推荐一些书籍/教程/文章作为开始? 最佳答案 也许你可以先阅读一些与MapReduce和分布式计算相关的论文,以更好地理解它。以下是一些我想推荐的:MapReduce:大型集群上的简化数据处理,http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/Bigtable:结构化数据的分布式存储系统,http://www.usenix.org/events/osdi06

hadoop - 流数据和 Hadoop? (不是 Hadoop 流)

我想使用MapReduce方法分析连续的数据流(通过HTTP访问),因此我一直在研究ApacheHadoop。不幸的是,Hadoop似乎期望以固定大小的输入文件开始作业,而不是能够在新数据到达时将其传递给消费者。真的是这样吗,还是我遗漏了什么?是否有不同的MapReduce工具可以处理从打开的套接字中读取的数据?可扩展性是这里的一个问题,所以我更愿意让MapReducer处理困惑的并行化问题。我玩过Cascading并且能够在通过HTTP访问的静态文件上运行作业,但这实际上并不能解决我的问题。我可以使用curl作为中间步骤,将数据转储到Hadoop文件系统的某个位置,并编写一个看门狗在

performance - 在 Hadoop mapreduce 作业中重用 JVM

我知道我们可以设置属性“mapred.job.reuse.jvm.num.tasks”来重新使用JVM。我的问题是:(1)如何决定这里要设置的任务个数,-1还是其他一些正整数?(2)在mapreduce作业中重用JVM并将此属性设置为-1的值是个好主意吗?非常感谢! 最佳答案 如果您有非常小的任务,这些任务肯定会在彼此之后运行,将此属性设置为-1很有用(意味着生成的JVM将被无限次重复使用)。因此,您只需生成(集群中可供您的作业使用的任务数)-JVM,而不是(任务数)-JVM。这是一个巨大的性能改进。在长时间运行的作业中,与设置新J

hadoop - 基于 Cassandra 的数据分析和挖掘

我们有大量来自各种网站的用户交互数据存储在Cassandra中,例如cookie、页面访问、广告查看、广告点击等,我们希望对其进行报告。我们当前的Cassandra模式支持基本的报告和查询。但是,我们还想构建大型查询,这些查询通常涉及大型列族(包含数百万行)上的联接。什么方法最适合这个?一种可能性是将数据提取到关系数据库(如mySQL)并在那里进行数据挖掘。替代方法可能是尝试将hadoop与hive或pig一起使用来为此目的运行mapreduce查询?我必须承认我对后者的经验为零。有没有人经历过两者之间的性能差异?您会在实时Cassandra生产实例或备份副本上运行mapreduce查

eclipse - 线程 "main"java.lang.NoClassDefFoundError : com/google/common/base/Preconditions 中的异常

在eclipse中运行javamapreduce应用程序时,遇到如下异常。我也在我的构建路径中包含了commons-logging-1.2.jar文件,但仍然在下面。我是hadoop的新手。请帮助我。Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/common/base/Preconditionsatorg.apache.hadoop.conf.Configuration$DeprecationDelta.(Configuration.java:314)atorg.apache.hadoop.conf.C

hadoop - 使用自定义可写从 Hadoop Map Reduce 作业输出列表

我正在尝试通过更改hadoop给出的字数示例来创建一个简单的mapreduce作业。我试图列出一个列表而不是单词数。wordcount示例给出以下输出hello2world2我正在努力让它以列表的形式输出,这将构成future工作的基础hello11world11我认为我在正确的轨道上,但我在编写列表时遇到了问题。而不是上面的,我得到Hellofoo.MyArrayWritable@61250ff2Worldfoo.MyArrayWritable@483a0ab1这是我的MyArrayWritable。我在write(DataOuptutarg0)中放了一个sysout但它从不输出任何

Hadoop:如何访问(许多)要由 map/reduce 处理的照片图像?

我在本地文件系统上保存了超过1000万张照片。现在我想通过它们中的每一个来分析照片的二进制文件,看看它是否是一只狗。我基本上想在集群hadoop环境中进行分析。问题是,我应该如何设计map方法的输入?比方说,在map方法中,newFaceDetection(photoInputStream).isDog()是分析的所有底层逻辑。具体来说,我应该将所有照片上传到HDFS吗?假设是,如何在map方法中使用它们?是否可以将输入(到map)作为包含所有照片路径(在HDFS中)的文本文件,每行,并在map方法中加载二进制文件,如:photoInputStream=getImageFromHDFS

hadoop - mapreduce 框架基于什么决定是否启动组合器

根据定义,“Combiner可以在mapper和reducer之间的每个键上被调用0次、1次或多次。”我想知道mapreduce框架是根据什么来决定cobiner启动多少次的。 最佳答案 只是溢出到磁盘的次数。MapOutputBuffer填满后进行排序,同时进行合并。您可以使用参数io.sort.mb、io.sort.spill.percent、io.sort调整溢出到磁盘的数量。record.percent-这些也在文档(书籍和在线资源)中进行了解释。特定组合器运行次数的示例:0->nocombinerwasdefined1->