草庐IT

reduced_bitmap

全部标签

hadoop - 如何从S3获取数据并将其用于Elastic map reduce/在哪里写代码?

我有两个大文件并将它们上传到名为“ccssdd”的AmazonS3存储桶中,并创建了一个名为data的文件夹:数据/友谊.xml数据/用户.xml用户结构是12447football..和13..我需要编写一个作业jar以在AmazonElasticMapReduce上运行它以计算:找出每个用户的friend数。我知道我应该从每个友谊元素中生成对作为map函数的输出在reduce函数中,我应该将每个用户ID的“1”相加。1_我知道我可以在eclipse中运行我的应用程序以生成.jar作业文件,但我不知道我应该下载哪些库并将其添加到项目中。2-我真的不知道如何将我的应用程序连接到s3!并

apache - Hive 查询花费大量时间来启动 map-reduce 作业

我们正在使用Hive进行临时查询,并且有一个Hive表,该表按两个字段(date,id)进行分区。现在每个日期大约有1400个ID,所以在一天左右添加了很多分区。实际数据驻留在s3中。现在我们面临的问题是假设我们从表格中执行一个月的selectcount(*)然后启动map需要相当长的时间(大约:1小时52分钟)减少工作。当我在Hive详细模式下运行查询时,我可以看到它这次花费的时间实际上决定了要生成多少个映射器(计算拆分)。有什么方法可以减少启动map-reduce作业的延迟时间吗?这是在此延迟时间内记录的日志消息之一:13/11/1907:11:06INFOmapred.FileI

java - hadoop 在所有 reducer 完成后给出输出

在代码的第一部分,我设置了一些数组来跟踪一些值,如下所示:@Overridepublicvoidconfigure(JobConfconf){top5=newString[5];counttop5=newint[5]}现在,在reducer的一些代码之后,我想将顶部的内容输出到输出文件,但是,为了做到这一点,我创建了一个close()函数:@Overridepublicvoidclose(){//whatgoeshere?}但是正如您所见,没有任何东西可以调用,因为输出是在reducer方法中定义的。虽然代码本身很长,但这里是方法的数据签名:publicstaticclassMapex

hadoop - Mahout - Seq2Sparse 单 reducer

我已经运行了很多天的seq2sparse作业,但它就是没有完成。主要原因是大多数“子作业”只有1个reducer,而每个作业都有很多映射器。我在从命令行调用seq2sparse时指定了--numReducers=n,但该属性仅在某些地方使用,例如MakePartialVectors而不是用于子作业,例如PruneVectors.可能是什么原因? 最佳答案 我查看了代码并意识到numReducers变量并未传递给所有子作业,因此这些作业是使用默认的缩减容量创建的,即1要绕过此限制,只需指定变量-Dmapred.reduce.tasks

hadoop - 如何在 HBase 上配置 map reduce jobs

我有一个在HBase表上运行的mapreduce作业。它在应用一些扫描过滤器并进行一些处理后扫描Hbase表。这项工作花费了很长时间,绝对比预期的要长得多,并且感觉性能下降是指数级的(即,前90%的完成速度比其余的快得多,大约98%(映射器完成)之后,看起来像像电影开始时的hell边缘一样陷入永恒。从高层来看,这种不均衡的性能应该没有任何理由,因为扫描中的每一行都应该有类似的行为,并且下游服务应该在HBase表的每一行都有类似的SLA。如何调试和分析此作业?是否有任何可用的工具可以帮助我对系统进行计量并查明行为异常的组件? 最佳答案

Hadoop reducer : How to ensure the reducers are evenly running over a number of nodes

我有一个场景,我不确定减少处理器的位置。i)我有一个输入文本文件,它有1到4之间平衡范围内的1000个整数。ii)让我们假设有一个4节点集群,每个节点有12个槽,其中4个分配为reducer-总共有16个reduce槽iii)我在驱动程序中设置了reducer的数量:jobConf.setNumReduceTasks(4);iii)最后我有一个分区方法是publicclassMyPartitionerextendsPartitioner{@OverridepublicintgetPartition(Textkey,Textvalue,intnumPartitions){returnIn

java - 如何在 map reduce 程序中解析 PDF 文件?

我想在我的hadoop2.2.0程序中解析PDF文件,我找到了this,按照它说的,直到现在,我有这三个类:PDFWordCount:包含map和reduce函数的主类。(就像nativehadoopwordcount示例,但我使用了我的TextInputFormat类而不是PDFInputFormat。PDFRecordReaderextendsRecordReader:这是这里的主要工作。特别是我把我的initialize此处的函数以获得更多说明。publicvoidinitialize(InputSplitgenericSplit,TaskAttemptContextcontex

java - Hadoop/Mapreduce Reducer 不工作

我从GitHub下载了有关K-MEANS算法(在hadoop中)的信息。但是,这仅适用于映射器。(因为输出文件名为“part-m-00000”)我希望减少输出文件。我的HDFS命令:./bin/hadoopjarKmeans.jar主要输入输出plz..一些人帮助我!!!!这里是Main.classimportjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importo

java - 如果我们有 12 个分区键,而我们只有 8 个 Reducer,那么会生成多少个 op 文件?

如果我们有12个分区键而我们只有8个Reducer,将创建多少个op部分文件?创建的零件文件数量是否为12,即使4个reducer可以用于2个键。IE。1个reducer是否会发出2个部分文件,因为它使用2个键(对于4个Reducer)或者两个键的数据(给1个Reducer)将合并到一个部分文件中,因此只生成8个部分文件? 最佳答案 如果4个reducer为2个键工作,则创建的部分文件的数量将为8。一个reduce任务将只生成一个部分文件,即使它需要多个键。一个reduce任务分区可能包含多个键,并且它们是排序的。减少Reducer

java - 使用 native 协议(protocol)的 Cassandra 自定义 map-reduce 输入格式化程序

我正在使用ApacheCassandra(1.2)和ApacheMap-Reduce处理一些数据。目前,我使用org.apache.cassandra.hadoop.cql3中的CqlPagingInputFormat。此提供程序使用Thrift来提取数据。Thrift似乎相当慢(300M记录,在3节点集群中需要8多个小时才能读取),并且由于存在原生二进制协议(protocol),我想知道是否有人使用过它。我对任何其他优化和配置调整不感兴趣-这是一个单独的问题。我的问题是是否有直接使用Cassandranative协议(protocol)的map-reduce输入格式化程序的实现?如果