草庐IT

map_region

全部标签

java - Eclipse 如何运行 map reduce 作业?

我关注了一篇文章,并设法在eclipse中运行了一个mapreduce程序。下面是pom.xml文件4.0.0virtusafazlan0.0.1-SNAPSHOTjarfazlanhttp://maven.apache.orgUTF-8junitjunit3.8.1testorg.apache.hadoophadoop-client2.2.0Maven安装必要的jar,当我将程序作为java应用程序运行时,输出按预期保存。据我所知,Hadoop可以在3种模式下运行。1)Singlenode2)psuedo-distributedmode3)distributedmode我假设ecli

Hadoop Map-reduce编程语法错误

我的输入是很多文本文件。我希望我的map-reduce程序将所有文件名和相关句子写入一个输出文件中,我只想从映射器发出文件名(键)和相关句子(值).reducer将收集键和所有值,并在输出中写入文件名及其关联的句子。这是我的mapper和reducer的代码:importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;publicclassWordCount{publics

Hadoop 基础 :Number of map tasks mappers reduce tasks reducers

映射器和映射任务有什么区别?同样,reducer和reduce任务?此外,在执行mapreduce任务期间如何确定映射器、maptasks、reducer、reducetasks的数量?如果有的话,给出它们之间的相互关系。 最佳答案 简单来说maptask就是Mapper的一个实例。Mapper和reducer是mapreduce作业中的方法。当我们运行mapreduce作业时,生成的map任务数取决于输入中的block数(block数取决于输入拆分)。然而,reduce任务的数量可以在mapreduce驱动程序代码中指定。可以通过

python - Hadoop 中 Map 函数的输入拆分

这是我在Hadoop中的第一个实现。我正在尝试在MapReduce中实现我的概率数据集算法。在我的数据集中,最后一列将有一些id(数据集中唯一id的数量等于我的集群中的节点数量)。我必须根据此列值划分我的数据集,并且每组记录都应由集群中的每个节点处理。例如,如果我的集群中有三个节点,对于下面的数据集,一个节点应该处理所有id=1的记录,另一个节点处理id=2,另一个节点处理id=3nametimedeptid--------------------b12:00pmz11b23:00pmz22c14:00pmy21b33:00pmz33c44:00pmx22我的map函数应该将每个拆分作

java - hadoop map reduce作业没有输出

我在Netbeans中编写MapReduce作业并生成(也在NB中)一个jar文件。当我尝试在hadoop(版本1.2.1)中执行此作业时,我执行此命令:$hadoopjarjob.jarorg.job.mainClass/home/user/in.txt/home/user/outdir此命令不显示任何错误,但不创建outdir、outfiles、...这是我的工作代码:映射器publicclassMapperextendsMapReduceBaseimplementsorg.apache.hadoop.mapred.Mapper{privatefinalIntWritableone

java - 将数据写入 MySQL 数据库时 map reduce 作业中的类转换异常

我正在尝试使用mapreduce作业将数据加载到mysql数据库中,但是我遇到了类转换异常错误,这是我使用的过程:我首先创建一个实现了Writable和DBWritable接口(interface)的DBOutputWritable类。然后我使用我的reduce作业将数据写入数据库,但是当我运行该作业时,它失败了,提示有错误:java.lang.ClassCastException:com.amalwa.hadoop.DataBaseLoadMapReduce.DBOutputWritablecannotbecasttoorg.apache.hadoop.mapreduce.lib.d

r - 在 R 中运行 map reduce 作业时出错

我刚刚开始集成RHadoop。它是与Hadoop集成的R-studio服务器,但在运行map-reduce作业时出现错误。当我运行以下代码行时。library(rmr2)a堆栈跟踪:15/03/2421:13:47INFOConfiguration.deprecation:mapred.reduce.tasksisdeprecated.Instead,usemapreduce.job.reducespackageJobJar:[][/usr/lib/hadoop-mapreduce/hadoop-streaming-2.5.0-cdh5.2.0.jar]/tmp/streamjob47

hadoop - 独立的 map reduce 作业一个接一个地执行

是否有可能执行独立的mapreduce作业(不在reducer输出的链接中成为映射器的输入。可以一个接一个地执行。 最佳答案 在你的驱动代码中调用两个方法runfirstjob,runsecondjob.就像这样。这只是一个提示,根据你的需要做修改publicclassExerciseDriver{staticConfigurationconf;publicstaticvoidmain(String[]args)throwsException{ExerciseDriverED=newExerciseDriver();conf=new

Hadoop 2.6.0 官方实例 : Yarn (MR2) much slower than Map Reduce (MR1) in single node setup

我开始玩hadoop2.6.0,根据officialdocumentation搭建了一个伪分布式单节点系统.当我运行简单的MapReduce(MR1)示例(参见“伪分布式操作->执行”)时,总执行时间约为7秒。更准确地说,bash的时间给出:real0m6.769suser0m7.375ssys0m0.400s当我通过Yarn(MR2)运行相同的示例时(参见“伪分布式操作->YARNonSingleNode”),总执行时间约为100sec,因此非常慢。bash的时间给出:real1m38.422suser0m4.798ssys0m0.319s因此,(出于某种原因)在用户空间之外存在大量

hadoop - map join 期间本地任务的 Hive 内存设置

我正在使用hdinsight集群(hive版本.13)来运行一些hive查询。在mapjoin期间启动本地任务的查询之一(来自TPCH套件的查询7)由于内存不足而失败(hive中止它,因为哈希表已达到配置的限制)。Hive似乎正在为本地任务分配1GB,这个大小是从哪里获取的,我该如何增加它?2015-05-0305:38:19Startingtolaunchlocaltasktoprocessmapjoin;maximummemory=932184064我假设本地任务应该使用与映射器相同的堆大小,但事实并非如此。感谢您的帮助。 最佳答案