草庐IT

HADOOP_NAMENODE_OPTS

全部标签

hadoop - 使用 piggybank 和 AvroStorage 解决 EMR 问题

我在EMR上运行一个pig脚本,它读取以Avro格式存储的数据。它一直在本地工作,但为了让脚本的其他部分在EMR上工作,我不得不将我使用的piggybank.jar恢复为0.9.2而不是0.10.0。进行该更改后,AvroStorage静默地无法读取任何数据并仅返回零记录。日志或任何内容中均未提及。这是脚本:REGISTER../../../lib/avro-1.7.0.jarREGISTER../../../lib/json-simple-1.1.1.jarREGISTER../../../lib/jackson-core-asl-1.5.2.jarREGISTER../../../

【Hadoop】集群配置之主要配置文件(hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...)

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop配置文件模板参考官方配置文档:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html#Configuring_Environment_of_Hadoop_DaemonsHadoop的配置文件都在$HADOOP_HOME/etc/hadoop下面。比如我这里是:Hadoop

Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

我刚刚在伪分布式模式下设置了Hadoop/Yarn2.x(特别是v0.23.3)。我遵循了一些博客和网站的说明,它们或多或少提供了设置它的相同处方。我也关注了O'reilly的第3版Hadoop书(具有讽刺意味的是,它是最没有帮助的)。问题:Afterrunning"start-dfs.sh"andthen"start-yarn.sh",whileallofthedaemonsdostart(asindicatedbyjps(1)),theResourceManagerwebportal(Here:http://localhost:8088/cluster/nodes)indicate

hadoop - 如何在 HADOOP 中并行运行多个迭代作业

我有一个针对单个文件迭代运行的hadoop作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在HADOOP中休假的最佳实践是什么。 最佳答案 可以引用项目haloop它解决了迭代映射减少。然后,如果文件很大,那么继续使用haloop,否则你可能会合并小文件以获得更好的性能。 关于hadoop-如何在HADOOP中并行运行多个迭代作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - 如何在hdfs中持久化namenode信息

我在我的桌面上设置了一个单节点集群。问题是我不能让我的桌面一直运行。我确实执行了stop-all.sh,稍后当我执行start-all.sh时,我的名称节点没有启动。最后我必须做%hadoopnamenode-format,通过丢失我的所有数据继续那里。 最佳答案 出了点严重的问题。请检查名称节点写入的图像和编辑文件发生了什么。如果它们没问题——NameNode可以启动。另外...存储NN数据的最后一个地方是HDFS-因为你会遇到鸡蛋和鸡肉的问题。没有NN数据HDFS不可访问。 关于ha

java - mapreduce 时的 Hadoop 库冲突

我有一个使用HadoopAPI来启动各种远程mapreduce作业的jar(即,我没有使用命令行来启Action业)。执行各种作业的服务jar是使用maven的“jar-with-dependencies”构建的。除了使用commons-codec1.7的作业外,我的所有作业都运行良好,我得到:FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.NoSuchMethodError:org.apache.commons.codec.binary.Base64.encodeAsString([B)Ljava/lan

Hadoop Mapper 运行缓慢

我正在尝试同时使用映射器和缩减器来运行作业,但映射器运行缓慢..如果对于相同的输入我禁用reducers,映射器将在3分钟内完成而对于mapper-reducer作业,即使在30分钟后,Mappers仍未完成。我正在使用hadoop1.0.3..我尝试了压缩和不压缩map输出。我删除了旧版本的hadoop0.20.203并从头开始为1.0.3重新安装了所有内容Jobtracker日志也​​充满了:2012-10-0310:26:20,138INFOorg.apache.hadoop.ipc.Server:IPCServerlisteneron54311:readAndProcessth

Hadoop:减少端连接卡在 map 上 100% 减少 100% 并且永远不会完成

我是Hadoop的初学者,最近我正在尝试运行reduce-sidejoinexample但它卡住了:Map100%andReduce100%但永远不会完成。进度、日志、代码、示例数据和配置文件如下:进度:12/10/0215:48:06INFOutil.NativeCodeLoader:Loadedthenative-hadooplibrary12/10/0215:48:06WARNsnappy.LoadSnappy:Snappynativelibrarynotloaded12/10/0215:48:06INFOmapred.FileInputFormat:Totalinputpath

java - AWS 使用 Hadoop API 增加映射和缩减器

我在AWS服务器上运行WordCount示例。我想测试我的输出并分析它们。我想增加编号。映射器和没有。reducer也没有。block。我怎样才能达到同样的效果?我必须设置否吗?创建工作时的映射器/reducer?或者我必须添加一些代码?我正在使用java。 最佳答案 您可以在使用JobConf的conf.setNumMapTasks(intnum)和conf.setNumRedTasks(int)启动MapReduce作业的Java程序的主要函数中设置映射器和缩减器的数量num),分别。对于映射器,请注意api:中的以下内容“这只

hadoop - 如何配置 Hadoop,使一个特定节点将所有数据存储在 HDFS 上?

我们有一台非常稳定的机器,我们想将它用作Namenode。同时,我们还有很多其他高度不稳定的机器,我们希望它们成为数据节点。现在我们要配置Hadoop,使Namenode(在本例中也作为Datanode)在HDFS上有一份完整数据的副本,这样集群就可以始终从中恢复数据。谁能帮我解决这个问题? 最佳答案 这不能以直接的方式完成。方法是有的,但很麻烦,问题百出,不值得。在您的实际数据节点和名称节点上运行数据节点守护进程。在你的拓扑文件中,将所有真实的数据节点作为一个逻辑机架(R1)的一部分,并将NN+DN机器作为一个不同的机架(R2)。