elastic-mapreduce-cli

hadoop - 使用 Hadoop 进行 MapReduce 的异常

我在本地机器上使用Hadoop时遇到异常。线程“main”中的异常java.lang.NoSuchMethodError:org.apache.hadoop.conf.Configuration.addDeprecation(Ljava/lang/String;Ljava/lang/String;)V在org.apache.hadoop.mapreduce.util.ConfigUtil.addDeprecatedKeys(ConfigUtil.java:522)在org.apache.hadoop.mapreduce.util.ConfigUtil.loadResources(Con

hadoop - 为什么通过 Hive CLI 提交的查询不会显示在 ResourceManager 中，但通过 Hue Beeswax 界面提交的查询会显示？

我有一个运行Yarn框架的ClouderaHadoop安装(CDH4)，我也安装了Hue。我注意到，当我通过Hue(Beeswax)界面提交Hive查询时，生成的mapreduce作业会显示在资源管理器WebUI以及Hue“作业浏览器”界面中。但是，如果我在任何节点上运行hivecli应用程序并从那里运行相同的查询，它似乎不会命中任何节点管理器，尽管它确实返回了正确的结果。我能想到的唯一区别是，Hue作业以我登录Hue的用户身份运行，而hivecli作业以启动hivecli的用户身份运行，这是一个不同的用户。我希望通过配置单元CLI提交的查询显示在资源管理器中。他们有什么理由不这样吗？

ResourceManager Beeswax section Hue 的 hadoop hive

java - Mapreduce 作业因 IO 异常而失败

我正在运行单节点hadoop环境。我有一个mapreduce作业来计算某些特定时间段内某些监控信息的平均值，比如每小时平均值。该作业将输出写入hdfs中的路径。在运行该作业之前，它会及时清理。它工作正常一个月。昨天，在运行作业时，我从jobclient得到一个异常，说:文件/user/root/out1/_temporary/_attempt_201401141113_0007_r_000000_0/hi/130-r-00000只能复制到0个节点，而不是1个完整的堆栈跟踪如下:..........14/01/1712:00:09INFOmapred.JobClient:map100%r

Mapreduce java hadoop apache hdfs

hadoop - 如何在 MapReduce 中使用 ORCFile 输入/输出格式？

我需要实现一个基于ORCFileI/O格式的自定义I/O格式。我该怎么做？具体来说，我需要一种方法在我的源代码中包含ORCFile库(这是一个自定义的Pig实现)并使用ORCFile输出格式写入数据，然后使用ORCFile输入格式读回数据。最佳答案您需要创建InputFormat的子类类(或FileInputFormat，取决于文件的性质)。只需在谷歌上搜索HadoopInputFormat，您就会发现大量关于如何创建您自己的InputFormat类的文章和教程。关于hadoop-

何在 MapReduce section 自定 ORCFile hadoop apache-pig

Hadoop mapreduce 容器以非零退出代码 1 退出

我正在尝试运行一些hadoop程序来提取Ubuntu中一些摘要的关键字。当我使用Hadoop运行程序时，出现以下错误。WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableINFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:8032WARNmapreduce.JobSubmitter:Hadoopcommand-lineoptionparsingnot

容器 mapreduce java 1404812840999 hadoop lucene

java - Scala MapReduce 框架提供类型不匹配

我在Scala中有一个基于多个org.apache.hadoop库的MapReduce框架。它适用于一个简单的字数统计程序。但是，我想将它应用到有用的东西上，但遇到了障碍。我想获取一个csv文件(或任何分隔符)并将第一列中的任何内容作为键传递，然后计算键的发生率。映射器代码如下所示classWordCountMapperextendsMapper[LongWritable,Text,Text,LongWritable]withHImplicits{protectedoverridedefmap(lnNumber:LongWritable,line:Text,context:Mapper

MapReduce Scala 34 hadoop code java

hadoop - 在 mapreduce 模式下运行 pig 脚本的问题

我有一个正在运行的具有6个节点(包括主节点)的hadoop(2.6.0)集群，并且想在mapreduce模式下运行一个pig(0.14.0)脚本。脚本运行没有错误，但不幸的是它似乎只在主节点上运行。在我的研究过程中，我尝试对hadoop配置文件进行一些更改，但没有成功。你能帮我弄清楚如何让pig在整个集群上工作吗？这里有一些信息:每个节点上的配置:一般:/etc/hosts127.0.0.1localhost192.168.101.3master192.168.101.4node1192.168.101.5node2192.168.101.6node3192.168.101.7node

mapreduce hadoop apache 2015 apache-pig

java - 既然可以在map()或reduce()中初始化参数，为什么还需要MapReduce中的setup()方法呢？

我是Hadoop和整个MapReduce范例的新手。我在网上搜索了很多有关覆盖Map类中的setup()方法以访问配置对象的信息。但从我读到的内容来看，似乎每次运行任务时都会调用setup()方法。那么为什么需要一个单独的方法来访问配置对象和初始化参数呢？为什么我们不能直接在map()或reduce()方法中做同样的事情？虽然这两种方法最终都会提供所需的输出，但在选择任何一种方法时是否会考虑性能因素？提前致谢。最佳答案回复:“似乎每次运行任务时都会调用setup()方法。”每当任务运行时，对应的Map或Reduce任务都会处理一

MapReduce reduce section setup em java hadoop

hadoop - 如何解决 Oozie 错误 : JA009: Cannot initialize Cluster. 检查 mapreduce.framework.name 的配置

我一直在使用oozie来安排spark作业。尝试使用Oozie中可用的spark操作在2.x集群中部署spark作业。在我的job.properties中，我有以下内容`nameNode=hdfs://hostname:8020jobTracker=hostname:8050master=yarn-clusterqueueName=defaultoozie.use.system.libpath=true`当我提交oozie作业时，我一直收到此错误错误:错误代码[JA009]，消息[JA009:无法初始化集群。请检查您的mapreduce.framework.name配置和相应的服务器地

initialize framework oozie section apache hadoop oozie-coordinator

java - hadoop中的mapreduce距离计算

有没有使用hadoopmap/reduce的距离计算实现。我正在尝试计算一组给定点之间的距离。寻找任何资源。编辑这是一个非常智能的解决方案。我已经尝试了一些与第一种算法相似的方法，并且几乎得到了我想要的东西。我目前不关心优化程序，但我的问题是dist(X,Y)函数不起作用。当我得到reducer上的所有点时，我无法遍历Iterator上的所有点并计算距离。stackoverflow.com上有人告诉我hadoop上的迭代器与普通的JAVA迭代器不同，我不确定。但是，如果我能找到一种简单的方法来遍历我的dist()函数上的迭代器，我就可以使用您的第二个算法进行优化。//Thisisyou

mapreduce hadoop section code reducer java parallel-processing

251 252 253254255 256 257