草庐IT

hadoop - 如何更改 hadoop 中 map reduce 函数的 log4j 级别

如标题,如何通过将参数传递给命令行来更改hadoop中mapreduce函数的log4j级别。我不想以编程方式更改级别。谢谢 最佳答案 您应该实现ToolRunner。在Hadoop权威指南中有一章描述它,source 关于hadoop-如何更改hadoop中mapreduce函数的log4j级别,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/15240101/

java - 如何在不缓存 hadoop 1.0.3 的情况下多次迭代 hadoop reduce 值?

我有一个问题,我基本上想做这样的事情:publicvoidreduce(Textkey,IterableiterValues,Contextcontext){for(Textval:iterValues){//dosomething}iterValues.reset()for(Textval:iterValues){//dosomethingelse}}我知道最好避免这些情况,或者简单地在内存中实例化对象,但我遇到了一个问题,我可能有太多的东西要保存在内存中,并且在结构上会变得更加复杂以破坏这变成了更多的减少步骤。看起来我不是唯一一个在寻找这个功能的人,事实上,这是一个很久以前实现的功

java - Map-reduce 实例化异常

您好,我正在使用以下map-reduce代码来尝试解析我的XML文件并在输出中创建CSV。importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat;publ

hadoop - 使用 HDFS+Map Reduce 的示例应用程序

我有一门学术类(class)“中间件”,它涵盖了分布式软件系统的不同方面,包括对[tag:DistributedFilesystem]等主题的介绍。这也涉及到hbase的介绍,hadoop,mapreduce,hiveql,piglatin.我想知道,我可以有一个试图整合上述技术的小项目吗?对于初学者,我知道vm由cloudera提供因为有hadoop的感觉并使用Eclipse进行游戏。我正在考虑实现一个接受事件流作为输入的应用程序,分析它并给出输出。我都有windows/linux在我的机器上i7处理器和4GbRam。请让我知道如何开始一切,欢迎对简单示例应用程序提出任何建议。

java - 在 Map Reduce 上实现 DBSCAN 需要帮助

我正在尝试在MR上实现DBSCAN并使用我粘贴在下面的链接中的直觉http://codingwiththomas.blogspot.com/2012/05/distributed-dbscan-intuition.htmlBestprogramminglanguagetoimplementDBSCANalgorithmqueryingaMongoDBdatabase?我的问题是如何计算初始距离矩阵。我不想运行hadoop作业只是为了计算距离矩阵并将其存储在内存中,因为这不是一个好的设计。有什么建议么。 最佳答案 感谢阅读我的博客。是

eclipse - 无法在 Elastic map reduce 命令行工具中列出当前作业流程?

我已成功安装AmazonElasticMapReduce命令行工具。在列出当前作业流程时,使用以下命令$./elastic-mapreduce--list它抛出以下错误。Error:Requesthasexpired.Timestampdate:2013-07-09T02:48:00-07:00 最佳答案 检查时间戳(即)主节点时间、机器时间应该相等。那么只有你会得到正确的回应。您可以通过putty查看您的主节点实例的时间戳。 关于eclipse-无法在Elasticmapreduce命

hadoop - Map 输出格式与 hadoop 中的 reduce 输出格式不同

我希望Map的输出为SequenceFileOutputFormat,reduce的最终输出为TextOutputFormat。作业配置只允许指定setOutputFormatClass如何为map和reduce阶段设置不同的输出格式? 最佳答案 我不认为您可以为映射器和缩减器指定不同的输出格式,只是为了整体工作。您可以尝试一个选项,具体取决于您的处理,您可以让一个作业输出SequenceFileOutputFormat中的文件,然后另一个作业读取并处理它以将其转换为TextOutputFormat。

hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码?

我有两个大文件并将它们上传到名为“ccssdd”的AmazonS3存储桶中,并创建了一个名为data的文件夹:数据/友谊.xml数据/用户.xml用户结构是12447football..和13..我需要编写一个作业jar以在AmazonElasticMapReduce上运行它以计算:找出每个用户的friend数。我知道我应该从每个友谊元素中生成对作为map函数的输出在reduce函数中,我应该将每个用户ID的“1”相加。1_我知道我可以在eclipse中运行我的应用程序以生成.jar作业文件,但我不知道我应该下载哪些库并将其添加到项目中。2-我真的不知道如何将我的应用程序连接到s3!并

apache - Hive 查询花费大量时间来启动 map-reduce 作业

我们正在使用Hive进行临时查询,并且有一个Hive表,该表按两个字段(date,id)进行分区。现在每个日期大约有1400个ID,所以在一天左右添加了很多分区。实际数据驻留在s3中。现在我们面临的问题是假设我们从表格中执行一个月的selectcount(*)然后启动map需要相当长的时间(大约:1小时52分钟)减少工作。当我在Hive详细模式下运行查询时,我可以看到它这次花费的时间实际上决定了要生成多少个映射器(计算拆分)。有什么方法可以减少启动map-reduce作业的延迟时间吗?这是在此延迟时间内记录的日志消息之一:13/11/1907:11:06INFOmapred.FileI

hadoop - 如何在 HBase 上配置 map reduce jobs

我有一个在HBase表上运行的mapreduce作业。它在应用一些扫描过滤器并进行一些处理后扫描Hbase表。这项工作花费了很长时间,绝对比预期的要长得多,并且感觉性能下降是指数级的(即,前90%的完成速度比其余的快得多,大约98%(映射器完成)之后,看起来像像电影开始时的hell边缘一样陷入永恒。从高层来看,这种不均衡的性能应该没有任何理由,因为扫描中的每一行都应该有类似的行为,并且下游服务应该在HBase表的每一行都有类似的SLA。如何调试和分析此作业?是否有任何可用的工具可以帮助我对系统进行计量并查明行为异常的组件? 最佳答案