我有一个运行Hadoop2.6的hadoop集群。我想同时向它提交多个作业。我想知道我是否应该简单地提交多个作业并让集群处理其余的,或者我应该将它们写成一个yarn应用程序。事实上,我对Yarn应用程序开发不是很熟悉,并且确切地知道它与常规Hadoop应用程序有何不同。 最佳答案 您可以使用MR1和YARN运行MR作业。YARN与作业并行无关。它只是运行各种作业的框架。使用oozie工作流或shell脚本并行运行作业。 关于hadoop-如何将多个作业提交到hadoop集群,我们在Sta
我对Hadoop相对缺乏经验,但在过去一年左右的时间里我一直在使用样板代码,通过HDInsight.netSDK编写和提交C#MapReduce控制台应用程序。这些工作似乎不断地与许多映射器一起运行,但只有一个reducer。我的reducer承担了相当多的繁重工作,因此只有一个reducer似乎成了瓶颈。通常我可以通过RDP进入集群并观察作业像液体黄金一样运行,然后在reducer启动时磨成……非常慢的东西)。我如何控制应用于reducer的资源量?我可以将更多资源分配给reducer而不是映射器吗?集群以编程方式启动(根据here)-我可以看到我可以控制配置文件中的各种参数:我走在
Apachespark1.2.1Standalone集群中的Dose,“执行程序的数量等于SPARK_WORKER_INSTANCES的数量”?Ihavedonebelowsettinginconf/spark-env.shSPARK_EXECUTOR_CORES=4SPARK_NUM_EXECUTORS=3SPARK_EXECUTOR_MEMORY=2G如果没有,谁能告诉我如何增加独立集群中的执行程序数量?提前致谢。 最佳答案 在独立模式下,总执行器数量等于集群中的总工作器数量。spark-env.sh中的SPARK_WORKER
我需要有关如何计算在spark独立集群中的xmb(假设x表示600mb)上运行需要多少堆空间(内存)的信息。场景:我有14GB内存和8个内核的独立集群。我想对600MB的数据进行操作(从文件中读取数据并将其写入Cassandra)。对于此任务,我将SparkConfig作为:.set("spark.cassandra.output.throughput_mb_per_sec","800").set("spark.storage.memoryFraction","0.3")提交任务时--executor-memory=5g--total-executor-cores6--driver-m
在启动hbase集群时,我遇到了以下错误2015-05-1516:58:31,741WARN[regionserver60020-SendThread(hbasenamenode:2181)]zookeeper.ClientCnxn:Session0x0forservernull,unexpectederror,closingsocketconnectionandattemptingreconnectjava.net.ConnectException:Connectionrefusedatsun.nio.ch.SocketChannelImpl.checkConnect(NativeM
我使用bdutil在Hadoop(2.6)集群上部署了带有yarn-client的Spark(1.3.1),默认情况下,实例是使用临时外部ips创建的,到目前为止spark工作正常。考虑到一些安全问题,并假设集群只能在内部访问,我从实例中删除了外部ips;在那之后,spark-shell甚至不会运行,并且似乎无法与Yarn/Hadoop通信,并且会无限期地卡住。只有在我重新添加外部ips之后,spark-shell才开始正常工作。我的问题是,运行sparkoveryarn是否需要节点的外部ips,为什么?如果是,是否会有关于安全等方面的担忧?谢谢! 最佳答案
我是Hadoop的新手。如果我问的是废话,请纠正我并帮助我解决这个问题:)。我安装并配置了一个双节点hadoop集群(yarn)。主节点:2TBHDD,4GBRAM从节点:500GBHDD,4GBRAM数据节点:仅Master节点(不在Slave节点保留复制数据)map/减少:主节点&从节点。在10TB数据中,我上传了2TB到主节点(数据节点)。我仅将从属节点用于Map/Reduce(使用从属节点的100%CPU来运行查询)。我的问题:如果我向主节点添加一个新的2TB硬盘,并且我想向主节点上传2TB以上的硬盘,我该如何同时使用硬盘(旧硬盘中的数据和主节点中的新硬盘)?有没有办法在hdf
是否有任何模式可以将应用程序(jar文件)部署到Hadoop-Custer?我不是在谈论map-reduce作业,而是为Spark、Flume等部署应用程序。仅在Hadoop生态系统中部署是不够的。您需要重启服务、部署配置(例如通过Ambari)等等。我还没有找到任何特定的工具。我假设您使用标准自动化工具(例如maven/jenkins)并自己完成缺失的部分是否正确?只是想知道我是否监督了什么。只是不想重新发明轮子;) 最佳答案 如果您正在管理Hadoop生态系统,您可以使用Ambari和Cloudera的管理器。但是您需要停止并重
我正在尝试使用oozie在配置单元脚本中加载文本/csv文件并每天安排它。文本文件在本地unix文件系统中。在oozie工作流中执行配置单元脚本之前,我需要将这些文本文件放入hdfs。在实时集群中,我们不知道作业将在哪个节点上运行。它会在集群中的任何一个节点上随机运行。谁能给我解决方案提前致谢。 最佳答案 不确定我明白你想做什么。在我看来,它行不通:Oozie服务器只能访问HDFS文件(与Hive相同)您的数据在某处的本地文件系统上那么为什么不事先将文件加载到HDFS中呢?可以在文件可用时(上游作业中的后处理操作)或在固定时间(使用
抱歉,如果我的问题显得幼稚。我们计划使用CDH5.3.0或5.4.0。我们想实现一个多节点集群。我在不同的博客/资源上看到/阅读的示例多节点安装在不同的主机上有主节点和从节点。但是,我们受到主机数量的限制。我们只有2台强大的主机(32核400+GBRAM),所以如果我们决定在一台主机上安装从机,在另一台主机上安装从机,我们最终将只有一个从机。我的问题是:master和slave可以在同一台主机上吗?我可以在一台主机上有多个从节点吗?也需要付费才能使用ClouderaManager,或者它像其他组件一样是开源的。如果您能指出一些资源的方向,这将有助于我理解上述情况,那将会很有帮助。感谢您