mapReduce_草庐IT

java - InvalidInputException 将文件加载到 Hbase MapReduce 时

我是Hadoop和MapReduce的新手。对于起始基地，我执行了字数统计程序。它执行得很好，但是当我尝试将csv文件运行到Htable时，我遵循了[Csv文件][1]它让我陷入了我不知道的错误，请任何人帮助我了解上述错误12/09/0705:47:31ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:hdusercause:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Inputpath[1]:http://salsahpc.indi

hadoop - 通过 PIG 加载多个 hbase 表限定符

我有一个名为USERS的hbase表，其列族名称为USER_INFO。USER_INFO有两个限定符EMAIL、AGE。当我尝试通过PIG加载单个限定符值时，它成功了。使用命令:R=LOAD'USERS'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('USER_INFO:EMAIL','-loadKey')AS(key:chararray,EMAIL:chararray);dumpR;但我无法使用这两个限定符加载表格。即电子邮件、年龄。我试过这个:S=LOAD'USERS'USINGorg.apache.pig.backen

hadoop 存储目录使用的空间超过 HDFS 上的总数据

我有一个三节点hadoop集群，复制因子=3。存储目录是每个系统的/app/hadoop/tmp/dfs/。每个datanode系统的硬盘容量为221GB。HDFS的有效数据为62GB，复制62*3=186GB。现在的问题是我的存储空间不足，即使我在660GB集群上只有186GB数据:HDFS显示可用空间的巨大差异:datanode1=7.47GBdatanode2=17.7GBdatanode3=143GB为了确保这些空间被hadoop本地存储使用，我在每个数据节点上运行了这个命令。对于数据节点1du-h--max-depth=1/app/hadoop/tmp/63G/app/had

Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

我刚刚在伪分布式模式下设置了Hadoop/Yarn2.x(特别是v0.23.3)。我遵循了一些博客和网站的说明，它们或多或少提供了设置它的相同处方。我也关注了O'reilly的第3版Hadoop书(具有讽刺意味的是，它是最没有帮助的)。问题:Afterrunning"start-dfs.sh"andthen"start-yarn.sh",whileallofthedaemonsdostart(asindicatedbyjps(1)),theResourceManagerwebportal(Here:http://localhost:8088/cluster/nodes)indicate

java - mapreduce 时的 Hadoop 库冲突

我有一个使用HadoopAPI来启动各种远程mapreduce作业的jar(即，我没有使用命令行来启Action业)。执行各种作业的服务jar是使用maven的“jar-with-dependencies”构建的。除了使用commons-codec1.7的作业外，我的所有作业都运行良好，我得到:FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.NoSuchMethodError:org.apache.commons.codec.binary.Base64.encodeAsString([B)Ljava/lan

windows-7 - cygwin下windows 7安装mahout

我在Windows7pro64位的cygwin下成功安装了hadoop。现在我正在努力安装mahout，但我不能。设置MAHOUT_HOME和变量并在cygwin上运行mahout后，出现以下错误我猜这与cygwin和windows路径之间的兼容性问题有关，但我找不到我应该更改哪个具体路径。Runningonhadoop,using/cygdrive/c/hadoop/bin/hadoopandHADOOP_CONF_DIR=MAHOUT-JOB:/cygdrive/c/mahout/mahout-examples-0.7-job.jarExceptioninthread"main"j

Hadoop Mapper 运行缓慢

我正在尝试同时使用映射器和缩减器来运行作业，但映射器运行缓慢..如果对于相同的输入我禁用reducers，映射器将在3分钟内完成而对于mapper-reducer作业，即使在30分钟后，Mappers仍未完成。我正在使用hadoop1.0.3..我尝试了压缩和不压缩map输出。我删除了旧版本的hadoop0.20.203并从头开始为1.0.3重新安装了所有内容Jobtracker日志也充满了:2012-10-0310:26:20,138INFOorg.apache.hadoop.ipc.Server:IPCServerlisteneron54311:readAndProcessth

Hadoop:减少端连接卡在 map 上 100% 减少 100% 并且永远不会完成

我是Hadoop的初学者，最近我正在尝试运行reduce-sidejoinexample但它卡住了:Map100%andReduce100%但永远不会完成。进度、日志、代码、示例数据和配置文件如下:进度:12/10/0215:48:06INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary12/10/0215:48:06WARNsnappy.LoadSnappy:Snappynativelibrarynotloaded12/10/0215:48:06INFOmapred.FileInputFormat:Totalinputpath

java - AWS 使用 Hadoop API 增加映射和缩减器

我在AWS服务器上运行WordCount示例。我想测试我的输出并分析它们。我想增加编号。映射器和没有。reducer也没有。block。我怎样才能达到同样的效果？我必须设置否吗？创建工作时的映射器/reducer？或者我必须添加一些代码？我正在使用java。最佳答案您可以在使用JobConf的conf.setNumMapTasks(intnum)和conf.setNumRedTasks(int)启动MapReduce作业的Java程序的主要函数中设置映射器和缩减器的数量num)，分别。对于映射器，请注意api:中的以下内容“这只

eclipse - 如何在windows的eclipse中配置map reduce插件(Hadoop安装在Linux服务器上)

我正在尝试从Windows连接到hadoop集群不属于hadoop集群的机器..基本上我们在linux服务器机器上安装了hadoop..所以没有GUI可用的。因此，出于这个原因，我们要做的是运行eclipse在Windows机器上使用hadoopeclipse插件..并尝试从Windows机器。我不知道如何运行mapreduce从这台windows机器到hadoop主节点的程序.. 最佳答案您可以通过安装Cygwin在windows中拥有Map-Reduce的开发环境您将需要:Cygwin配置ssh守护进程启动SSH守护进程设置授