草庐IT

mapreduce_shuffle

全部标签

Hadoop MapReduce - Pig/Cassandra - 无法创建输入拆分

我正在尝试使用Pig和Cassandra运行MapReduce作业,但我总是收到错误消息:错误2118:无法为cassandra://constellation/logs创建输入拆分[已解决]有一些我没有设置的环境变量:PIG_RPC_PORT,PIG_INITIAL_ADDRESS,PIG_PARTITIONER/opt/cassandra-0.7.0-beta3/contrib/pig$bin/pig_cassandraexample-script.pig10/11/1517:38:26INFOpig.Main:Loggingerrormessagesto:/opt/cassand

java - Hadoop MapReduce Java 实现中的 Reducer

我正在HadoopMapReduceFramework中编写一个Java实现程序。我正在编写一个名为CombinePatternReduce.class的类.为了在Eclipse中调试reducer,我写了一个main()功能如下:@SuppressWarnings("unchecked")publicstaticvoidmain(String[]args)throwsIOException,InterruptedException{Textkey=newText("key2:::key1:::_performsbetterthan_");IntWritablecount5=newIn

hadoop - 是否可以让 Hadoop MapReduce 作业为每个键写入一个文件?

我正在尝试将Hadoop用于一个美化的工作跟踪器,我需要能够为每个输出键写入一个文件。此外,我需要将该文件命名为与key文本相同的名称,并且我希望该文件恰好是与该输出key关联的值。这可能吗?怎么办? 最佳答案 使用MultipleOutputFormat使用基于发送到reducer的key的自定义文件名。 关于hadoop-是否可以让HadoopMapReduce作业为每个键写入一个文件?,我们在StackOverflow上找到一个类似的问题: https:

hadoop - 使用 Hadoop 进行 MapReduce 的异常

我在本地机器上使用Hadoop时遇到异常。线程“main”中的异常java.lang.NoSuchMethodError:org.apache.hadoop.conf.Configuration.addDeprecation(Ljava/lang/String;Ljava/lang/String;)V在org.apache.hadoop.mapreduce.util.ConfigUtil.addDeprecatedKeys(ConfigUtil.java:522)在org.apache.hadoop.mapreduce.util.ConfigUtil.loadResources(Con

java - Mapreduce 作业因 IO 异常而失败

我正在运行单节点hadoop环境。我有一个mapreduce作业来计算某些特定时间段内某些监控信息的平均值,比如每小时平均值。该作业将输出写入hdfs中的路径。在运行该作业之前,它会及时清理。它工作正常一个月。昨天,在运行作业时,我从jobclient得到一个异常,说:文件/user/root/out1/_temporary/_attempt_201401141113_0007_r_000000_0/hi/130-r-00000只能复制到0个节点,而不是1个完整的堆栈跟踪如下:..........14/01/1712:00:09INFOmapred.JobClient:map100%r

hadoop - 如何在 MapReduce 中使用 ORCFile 输入/输出格式?

我需要实现一个基于ORCFileI/O格式的自定义I/O格式。我该怎么做?具体来说,我需要一种方法在我的源代码中包含ORCFile库(这是一个自定义的Pig实现)并使用ORCFile输出格式写入数据,然后使用ORCFile输入格式读回数据。 最佳答案 您需要创建InputFormat的子类类(或FileInputFormat,取决于文件的性质)。只需在谷歌上搜索HadoopInputFormat,您就会发现大量关于如何创建您自己的InputFormat类的文章和教程。 关于hadoop-

Hadoop mapreduce 容器以非零退出代码 1 退出

我正在尝试运行一些hadoop程序来提取Ubuntu中一些摘要的关键字。当我使用Hadoop运行程序时,出现以下错误。WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableINFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:8032WARNmapreduce.JobSubmitter:Hadoopcommand-lineoptionparsingnot

java - Scala MapReduce 框架提供类型不匹配

我在Scala中有一个基于多个org.apache.hadoop库的MapReduce框架。它适用于一个简单的字数统计程序。但是,我想将它应用到有用的东西上,但遇到了障碍。我想获取一个csv文件(或任何分隔符)并将第一列中的任何内容作为键传递,然后计算键的发生率。映射器代码如下所示classWordCountMapperextendsMapper[LongWritable,Text,Text,LongWritable]withHImplicits{protectedoverridedefmap(lnNumber:LongWritable,line:Text,context:Mapper

hadoop - 在 mapreduce 模式下运行 pig 脚本的问题

我有一个正在运行的具有6个节点(包括主节点)的hadoop(2.6.0)集群,并且想在mapreduce模式下运行一个pig(0.14.0)脚本。脚本运行没有错误,但不幸的是它似乎只在主节点上运行。在我的研究过程中,我尝试对hadoop配置文件进行一些更改,但没有成功。你能帮我弄清楚如何让pig在整个集群上工作吗?这里有一些信息:每个节点上的配置:一般:/etc/hosts127.0.0.1localhost192.168.101.3master192.168.101.4node1192.168.101.5node2192.168.101.6node3192.168.101.7node

java - 既然可以在map()或reduce()中初始化参数,为什么还需要MapReduce中的setup()方法呢?

我是Hadoop和整个MapReduce范例的新手。我在网上搜索了很多有关覆盖Map类中的setup()方法以访问配置对象的信息。但从我读到的内容来看,似乎每次运行任务时都会调用setup()方法。那么为什么需要一个单独的方法来访问配置对象和初始化参数呢?为什么我们不能直接在map()或reduce()方法中做同样的事情?虽然这两种方法最终都会提供所需的输出,但在选择任何一种方法时是否会考虑性能因素?提前致谢。 最佳答案 回复:“似乎每次运行任务时都会调用setup()方法。”每当任务运行时,对应的Map或Reduce任务都会处理一