mapReduce

hadoop - 如何开始学习hadoop

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭5年前。Improvethisquestion我是一名网络开发人员。我在JavaScript、Jquery、Php、HTML等Web技术方面有经验。我知道C的基本概念。最近我有兴趣学习更多关于mapreduce和hadoop的知识。因此，我在我的大学注册了mapreduce中的并行数据处理类(class)。由于我之前没有任何面向对象语言(如Java或C++)的编程知识，我应该如何学习mapreduce和hadoop。我已经开始阅读Yahooh

hadoop 如何 section strong class mapreduce

map - Hadoop:键和值在输出文件中以制表符分隔。如何做到以分号分隔？

我认为标题已经解释了我的问题。我要改变key(tabspace)value进入key;value在所有输出文件中，reducer从映射器的输出中生成。我无法使用谷歌找到关于此的良好文档。任何人都可以提供一小部分代码来说明如何实现这一目标吗？最佳答案将配置属性mapred.textoutputformat.separator设置为";" 关于map-Hadoop:键和值在输出文件中以制表符分隔。如何做到以分号分隔？，我们在StackOverflow上找到一个类似的问题：

制表符分号 section code 中生 map hadoop mapreduce reduce

hadoop - 我从哪里开始分布式计算？

我对学习分布式计算技术很感兴趣。作为Java开发人员，我可能愿意从Hadoop开始。.您能否推荐一些书籍/教程/文章作为开始？最佳答案也许你可以先阅读一些与MapReduce和分布式计算相关的论文，以更好地理解它。以下是一些我想推荐的:MapReduce:大型集群上的简化数据处理，http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/Bigtable:结构化数据的分布式存储系统，http://www.usenix.org/events/osdi06

hadoop 我从 section noreferrer http mapreduce distributed-computing

hadoop - 流数据和 Hadoop？ (不是 Hadoop 流)

我想使用MapReduce方法分析连续的数据流(通过HTTP访问)，因此我一直在研究ApacheHadoop。不幸的是，Hadoop似乎期望以固定大小的输入文件开始作业，而不是能够在新数据到达时将其传递给消费者。真的是这样吗，还是我遗漏了什么？是否有不同的MapReduce工具可以处理从打开的套接字中读取的数据？可扩展性是这里的一个问题，所以我更愿意让MapReducer处理困惑的并行化问题。我玩过Cascading并且能够在通过HTTP访问的静态文件上运行作业，但这实际上并不能解决我的问题。我可以使用curl作为中间步骤，将数据转储到Hadoop文件系统的某个位置，并编写一个看门狗在

Hadoop section 的 mapreduce

performance - 在 Hadoop mapreduce 作业中重用 JVM

我知道我们可以设置属性“mapred.job.reuse.jvm.num.tasks”来重新使用JVM。我的问题是:(1)如何决定这里要设置的任务个数，-1还是其他一些正整数？(2)在mapreduce作业中重用JVM并将此属性设置为-1的值是个好主意吗？非常感谢! 最佳答案如果您有非常小的任务，这些任务肯定会在彼此之后运行，将此属性设置为-1很有用(意味着生成的JVM将被无限次重复使用)。因此，您只需生成(集群中可供您的作业使用的任务数)-JVM，而不是(任务数)-JVM。这是一个巨大的性能改进。在长时间运行的作业中，与设置新J

重用 performance section 长时 hadoop jvm mapreduce

hadoop - 基于 Cassandra 的数据分析和挖掘

我们有大量来自各种网站的用户交互数据存储在Cassandra中，例如cookie、页面访问、广告查看、广告点击等，我们希望对其进行报告。我们当前的Cassandra模式支持基本的报告和查询。但是，我们还想构建大型查询，这些查询通常涉及大型列族(包含数百万行)上的联接。什么方法最适合这个？一种可能性是将数据提取到关系数据库(如mySQL)并在那里进行数据挖掘。替代方法可能是尝试将hadoop与hive或pig一起使用来为此目的运行mapreduce查询？我必须承认我对后者的经验为零。有没有人经历过两者之间的性能差异？您会在实时Cassandra生产实例或备份副本上运行mapreduce查

Cassandra 挖掘 section 的 hadoop mapreduce analytics

eclipse - 线程 "main"java.lang.NoClassDefFoundError : com/google/common/base/Preconditions 中的异常

在eclipse中运行javamapreduce应用程序时，遇到如下异常。我也在我的构建路径中包含了commons-logging-1.2.jar文件，但仍然在下面。我是hadoop的新手。请帮助我。Exceptioninthread"main"java.lang.NoClassDefFoundError:com/google/common/base/Preconditionsatorg.apache.hadoop.conf.Configuration$DeprecationDelta.(Configuration.java:314)atorg.apache.hadoop.conf.C

NoClassDefFoundError Preconditions java URLClassLoader section eclipse hadoop mapreduce

hadoop - 使用自定义可写从 Hadoop Map Reduce 作业输出列表

我正在尝试通过更改hadoop给出的字数示例来创建一个简单的mapreduce作业。我试图列出一个列表而不是单词数。wordcount示例给出以下输出hello2world2我正在努力让它以列表的形式输出，这将构成future工作的基础hello11world11我认为我在正确的轨道上，但我在编写列表时遇到了问题。而不是上面的，我得到Hellofoo.MyArrayWritable@61250ff2Worldfoo.MyArrayWritable@483a0ab1这是我的MyArrayWritable。我在write(DataOuptutarg0)中放了一个sysout但它从不输出任何

自定 hadoop IntWritable MyArrayWritable code mapreduce

Hadoop:如何访问(许多)要由 map/reduce 处理的照片图像？

我在本地文件系统上保存了超过1000万张照片。现在我想通过它们中的每一个来分析照片的二进制文件，看看它是否是一只狗。我基本上想在集群hadoop环境中进行分析。问题是，我应该如何设计map方法的输入？比方说，在map方法中，newFaceDetection(photoInputStream).isDog()是分析的所有底层逻辑。具体来说，我应该将所有照片上传到HDFS吗？假设是，如何在map方法中使用它们？是否可以将输入(到map)作为包含所有照片路径(在HDFS中)的文本文件，每行，并在map方法中加载二进制文件，如:photoInputStream=getImageFromHDFS

许多 Hadoop code section map mapreduce hdfs

hadoop - mapreduce 框架基于什么决定是否启动组合器

根据定义，“Combiner可以在mapper和reducer之间的每个键上被调用0次、1次或多次。”我想知道mapreduce框架是根据什么来决定cobiner启动多少次的。最佳答案只是溢出到磁盘的次数。MapOutputBuffer填满后进行排序，同时进行合并。您可以使用参数io.sort.mb、io.sort.spill.percent、io.sort调整溢出到磁盘的数量。record.percent-这些也在文档(书籍和在线资源)中进行了解释。特定组合器运行次数的示例:0->nocombinerwasdefined1->

mapreduce hadoop section code MapOutputBuffer combiners

129 130 131132133 134 135