草庐IT

Hadoop-mkdir

全部标签

hadoop - 如何在 HADOOP 中并行运行多个迭代作业

我有一个针对单个文件迭代运行的hadoop作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在HADOOP中休假的最佳实践是什么。 最佳答案 可以引用项目haloop它解决了迭代映射减少。然后,如果文件很大,那么继续使用haloop,否则你可能会合并小文件以获得更好的性能。 关于hadoop-如何在HADOOP中并行运行多个迭代作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - 如何在hdfs中持久化namenode信息

我在我的桌面上设置了一个单节点集群。问题是我不能让我的桌面一直运行。我确实执行了stop-all.sh,稍后当我执行start-all.sh时,我的名称节点没有启动。最后我必须做%hadoopnamenode-format,通过丢失我的所有数据继续那里。 最佳答案 出了点严重的问题。请检查名称节点写入的图像和编辑文件发生了什么。如果它们没问题——NameNode可以启动。另外...存储NN数据的最后一个地方是HDFS-因为你会遇到鸡蛋和鸡肉的问题。没有NN数据HDFS不可访问。 关于ha

java - mapreduce 时的 Hadoop 库冲突

我有一个使用HadoopAPI来启动各种远程mapreduce作业的jar(即,我没有使用命令行来启Action业)。执行各种作业的服务jar是使用maven的“jar-with-dependencies”构建的。除了使用commons-codec1.7的作业外,我的所有作业都运行良好,我得到:FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.NoSuchMethodError:org.apache.commons.codec.binary.Base64.encodeAsString([B)Ljava/lan

Hadoop Mapper 运行缓慢

我正在尝试同时使用映射器和缩减器来运行作业,但映射器运行缓慢..如果对于相同的输入我禁用reducers,映射器将在3分钟内完成而对于mapper-reducer作业,即使在30分钟后,Mappers仍未完成。我正在使用hadoop1.0.3..我尝试了压缩和不压缩map输出。我删除了旧版本的hadoop0.20.203并从头开始为1.0.3重新安装了所有内容Jobtracker日志也​​充满了:2012-10-0310:26:20,138INFOorg.apache.hadoop.ipc.Server:IPCServerlisteneron54311:readAndProcessth

Hadoop:减少端连接卡在 map 上 100% 减少 100% 并且永远不会完成

我是Hadoop的初学者,最近我正在尝试运行reduce-sidejoinexample但它卡住了:Map100%andReduce100%但永远不会完成。进度、日志、代码、示例数据和配置文件如下:进度:12/10/0215:48:06INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary12/10/0215:48:06WARNsnappy.LoadSnappy:Snappynativelibrarynotloaded12/10/0215:48:06INFOmapred.FileInputFormat:Totalinputpath

java - AWS 使用 Hadoop API 增加映射和缩减器

我在AWS服务器上运行WordCount示例。我想测试我的输出并分析它们。我想增加编号。映射器和没有。reducer也没有。block。我怎样才能达到同样的效果?我必须设置否吗?创建工作时的映射器/reducer?或者我必须添加一些代码?我正在使用java。 最佳答案 您可以在使用JobConf的conf.setNumMapTasks(intnum)和conf.setNumRedTasks(int)启动MapReduce作业的Java程序的主要函数中设置映射器和缩减器的数量num),分别。对于映射器,请注意api:中的以下内容“这只

hadoop - 如何配置 Hadoop,使一个特定节点将所有数据存储在 HDFS 上?

我们有一台非常稳定的机器,我们想将它用作Namenode。同时,我们还有很多其他高度不稳定的机器,我们希望它们成为数据节点。现在我们要配置Hadoop,使Namenode(在本例中也作为Datanode)在HDFS上有一份完整数据的副本,这样集群就可以始终从中恢复数据。谁能帮我解决这个问题? 最佳答案 这不能以直接的方式完成。方法是有的,但很麻烦,问题百出,不值得。在您的实际数据节点和名称节点上运行数据节点守护进程。在你的拓扑文件中,将所有真实的数据节点作为一个逻辑机架(R1)的一部分,并将NN+DN机器作为一个不同的机架(R2)。

hadoop - 我可以将本地文件的内容传递给 Hadoop Pipes 作业吗

我需要使用存储在本地文本文件中的信息来初始化映射器中的对象。有什么机制可以做到这一点吗? 最佳答案 您可以将文件上传到HDFS,然后将其添加到分布式缓存,使其可供映射器从工作目录加载。将本地文件上传到HDFS并将其放入分布式缓存由通用-files选项处理hadooppipes-fileslocalfile.txt现在要在映射器中加载文件,只需打开一个同名文件(localfile.txt)(您可以假设该文件位于当前工作目录中)。 关于hadoop-我可以将本地文件的内容传递给HadoopP

hadoop - 测试运行后 HBASE DB 大小增加

我使用的是HDFS+HBASE。我创建了一个数据库并运行了2小时的测试。我想在测试运行后检查数据库大小的增加。我尝试使用以下方法阅读:hadoopdfsadmin-reportandhadoopfs-dus/hbase.还尝试使用检查磁盘大小du-sk/HADOOP.观察运行测试后,大小显示减少而不是增加。正在使用的版本:Hadoop1.0.0、HBase0.90.5、ZooKeeper3.3.4。列族上的压缩是无。请帮助获得正确的过程来计算由于测试而增加的数据库大小。 最佳答案 Lakshmi,650K对于HBase/Hadoop

hadoop - 生成 HDFS 序列文件

我正在使用org.apache.pig.PigServer类从Java运行pig脚本。我需要以gz压缩的序列格式输出我的文件。这就是我所做的:effectivePigProperties.put("mapred.output.compress","true");effectivePigProperties.put("mapred.output.format.class","org.apache.hadoop.mapred.SequenceFileOutputFormat");effectivePigProperties.put("mapred.output.compression.ty