elastic-mapreduce-cli

java - Hadoop 中 Mapreduce 程序的意外输出

我正在研究Hadoop。我的输出是预期的两倍。我无法理解为什么会这样。请帮助我下面是映射器类:importjava.io.File;importjava.io.IOException;importjava.util.Scanner;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;publicclassStringMapperextendsMapReduceBaseimplementsMapper{//hadoopsupporteddatatypesprivatestaticIntWritablesend;pri

hadoop - Mapreduce combinefileinputformat java.lang.reflect.InvocationTargetException 而两个作业访问相同的数据

HadoopMapreduceCombineFileInputFormat在读取大量小文件时效果很好，但我注意到有时作业会因以下异常而失败，java.lang.RuntimeException:java.lang.reflect.InvocationTargetExceptionatorg.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.initNextRecordReader(CombineFileRecordReader.java:164)atorg.apache.hadoop.mapreduce.lib.inpu

InvocationTargetException combinefileinputformat hadoop java apache mapreduce recordreader

hadoop - 无法启动 Hive 查询(MapReduce)

我在配置单元查询方面遇到问题。如果我尝试从hue界面启动count(*)查询，但出现这样的异常:15/01/2315:06:42ERRORoperation.Operation:Errorrunninghivequery:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskatorg.apache.hive.service.cli

MapReduce hadoop java apache cloudera hadoop-yarn

Python 和 MapReduce : beyond basics -- how to do more tasks on one database

我有一个巨大的txt数据存储，我想在其中收集一些统计数据。使用Hadoop流和Python我知道如何实现MapReduce以在单个列上收集统计信息，例如计算100个类别中的每个类别有多少条记录。我创建了一个简单的mapper.py和reducer.py，并将它们分别作为-mapper和-reducer插入到hadoop-streaming命令中。现在，我对如何实际处理更复杂的任务有点不知所措:除了上述类别(例如地理位置、类型、日期等)之外，还收集各种其他列的各种统计数据。所有这些数据都在同一个txt文件中。我是否将mapper/reducer任务链接在一起？我是否传递最初很长的键值对(

MapReduce database section strong python hadoop hadoop-streaming

hadoop - Mapreduce 并行副本与 http 线程

我无法了解以下2个mapreduce作业配置属性之间的差异。mapreduce.reduce.shuffle.parallelcopiesmapreduce.tasktracker.http.threadsmapreduce.reduce.shuffle.parallelcopies是在复制(洗牌)阶段由reduce运行的并行传输的数量。mapreduce.tasktracker.http.threads是http服务器的工作线程数。这用于map输出获取。parallelcopies表示并行传输的数量，我猜它指的是一次将map输出并行传输到reducer。httpthreads表示要在

Mapreduce hadoop section reducer

java - 在 MapReduce 中组合聚类算法

对于我的大学项目，我最初想在MapReduce上实现一个组合聚类算法。我已经完成了KMeans。现在我的问题是:能否将任何其他聚类算法与MapReduce上的Kmeans相结合？如果是，是什么算法，过程是怎样的？如果无法合并，如何对现有KMeans进行增强？最佳答案您可以应用一种方法来智能地选择初始质心，而不是随机选择它们。有论文介绍了改进的K-Means算法。您可以引用其中的一个或多个并创建您自己的改进K-Means算法。关于java-在MapReduce中组合聚类算法，我们在S

MapReduce java section 上实 algorithm hadoop k-means

hadoop - 在 Hadoop 集群中为 MapReduce 作业部署 JAR

抱歉这个愚蠢的问题。我在CentOSlinux中有一个5节点的hadoop集群。名称节点/职位追踪器/二级名称节点/数据节点-2我写了一个mapreduce并编译了JAR。我需要将JAR部署到哪个节点？提前致谢。最佳答案在一个典型的hadoop集群中，应该有客户端节点。客户端节点用于在hadoop集群上运行客户端应用程序和集群管理工具。客户端机器执行以下任务:在HDFS集群中加载数据提交MapReduce作业(描述如何处理数据)在作业完成后检索或查看作业结果提交Pig或Hive查询Hadoop管理员通常在安装和配置hadoop集

MapReduce hadoop section 追踪器

hadoop - MapReduce 作业作为用户在/user/yarn/.staging 目录上获得权限错误运行

我有一个运行Hive操作的Oozie工作流。配置单元操作非常简单，它只是从一个表中读取副本到另一个表。该作业具有以下属性:user.name=yarnmapreduce.job.user.name=cloudfeeds作业失败并出现以下错误:15/07/1618:45:25INFOmapreduce.Job:Jobjob_1435680786374_0060failedwithstateFAILEDdueto:Applicationapplication_1435680786374_0060failed2timesduetoAMContainerforappattempt_143568

MapReduce staging hadoop apache java hive hadoop-yarn oozie

java - 执行一个简单的 mapreduce 函数以在 Hadoop 的日志文件中搜索字符串

当我在eclipse中使用本地文件系统中的输入文件执行它时，mapreduce工作正常。但是当我通过将输入文件放入HDFS来在HortonworksSandbox中执行jar文件时，stringKey变量没有被设置，即stringKey在mapper中为null但我从main函数实例化它并且可以在那里访问。我的代码有什么错误吗？importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg

中搜 mapreduce import hadoop apache java eclipse sandbox hortonworks-data-platform

hadoop - 使用 Hue 的 MapReduce oozie 工作流

我正在使用AWS并尝试使用hue为仅map作业创建oozie工作流。我为此采取了mapreduce操作。在尝试了很多方法之后，我无法完成它。我从CLI运行我的工作，它工作正常。我在HDFS中创建了一个名为mapreduce的目录，并将我的driver.java和mapper.java放入其中。在mapreduce目录下，我创建了lib目录并将我的可运行jar放入其中。我附上色调界面的屏幕截图。我遗漏了一些东西，或者我似乎无法将可运行的jar放在适当的位置。除了Hue中的输入和输出目录，我还想添加一个额外的参数。我该怎么做？我的疑惑在于2015-11-0614:56:57,679WARN

MapReduce hadoop apache org oozie hue oozie-coordinator

241 242 243244245 246 247