集群NoSQL

hadoop - 如何将多个作业提交到 hadoop 集群

我有一个运行Hadoop2.6的hadoop集群。我想同时向它提交多个作业。我想知道我是否应该简单地提交多个作业并让集群处理其余的，或者我应该将它们写成一个yarn应用程序。事实上，我对Yarn应用程序开发不是很熟悉，并且确切地知道它与常规Hadoop应用程序有何不同。最佳答案您可以使用MR1和YARN运行MR作业。YARN与作业并行无关。它只是运行各种作业的框架。使用oozie工作流或shell脚本并行运行作业。关于hadoop-如何将多个作业提交到hadoop集群，我们在Sta

hadoop 交到 section strong mapreduce hadoop-yarn

c# - 通过 .net SDK : All MapReduce jobs run with 1 reducer 配置的 HDInsight 集群

我对Hadoop相对缺乏经验，但在过去一年左右的时间里我一直在使用样板代码，通过HDInsight.netSDK编写和提交C#MapReduce控制台应用程序。这些工作似乎不断地与许多映射器一起运行，但只有一个reducer。我的reducer承担了相当多的繁重工作，因此只有一个reducer似乎成了瓶颈。通常我可以通过RDP进入集群并观察作业像液体黄金一样运行，然后在reducer启动时磨成……非常慢的东西)。我如何控制应用于reducer的资源量？我可以将更多资源分配给reducer而不是映射器吗？集群以编程方式启动(根据here)-我可以看到我可以控制配置文件中的各种参数:我走在

c#MapReduce reducer section noreferrer azure hadoop azure-hdinsight

hadoop - Apache spark 1.2.1 独立集群中的剂量， 'number of executors equals to number of SPARK_WORKER_INSTANCES'？

Apachespark1.2.1Standalone集群中的Dose，“执行程序的数量等于SPARK_WORKER_INSTANCES的数量”？Ihavedonebelowsettinginconf/spark-env.shSPARK_EXECUTOR_CORES=4SPARK_NUM_EXECUTORS=3SPARK_EXECUTOR_MEMORY=2G如果没有，谁能告诉我如何增加独立集群中的执行程序数量？提前致谢。最佳答案在独立模式下，总执行器数量等于集群中的总工作器数量。spark-env.sh中的SPARK_WORKER

number SPARK_WORKER_INSTANCES code section SPARK hadoop apache-spark

hadoop - Apache Spark 1.2.1 独立集群给出 java 堆空间错误

我需要有关如何计算在spark独立集群中的xmb(假设x表示600mb)上运行需要多少堆空间(内存)的信息。场景:我有14GB内存和8个内核的独立集群。我想对600MB的数据进行操作(从文件中读取数据并将其写入Cassandra)。对于此任务，我将SparkConfig作为:.set("spark.cassandra.output.throughput_mb_per_sec","800").set("spark.storage.memoryFraction","0.3")提交任务时--executor-memory=5g--total-executor-cores6--driver-m

hadoop Apache 34 spark section apache-spark

hadoop - 区域服务器未在 hadoop 2.0 分布式集群上运行

在启动hbase集群时，我遇到了以下错误2015-05-1516:58:31,741WARN[regionserver60020-SendThread(hbasenamenode:2181)]zookeeper.ClientCnxn:Session0x0forservernull,unexpectederror,closingsocketconnectionandattemptingreconnectjava.net.ConnectException:Connectionrefusedatsun.nio.ch.SocketChannelImpl.checkConnect(NativeM

hadoop 2.0 regionserver hbase property apache-zookeeper

hadoop - Spark/Hadoop/Yarn集群通信需要外部ip？

我使用bdutil在Hadoop(2.6)集群上部署了带有yarn-client的Spark(1.3.1)，默认情况下，实例是使用临时外部ips创建的，到目前为止spark工作正常。考虑到一些安全问题，并假设集群只能在内部访问，我从实例中删除了外部ips；在那之后，spark-shell甚至不会运行，并且似乎无法与Yarn/Hadoop通信，并且会无限期地卡住。只有在我重新添加外部ips之后，spark-shell才开始正常工作。我的问题是，运行sparkoveryarn是否需要节点的外部ips，为什么？如果是，是否会有关于安全等方面的担忧？谢谢! 最佳答案

hadoop spark apache SparkILoop apache-spark hadoop-yarn google-hadoop

Hadoop 多节点集群

我是Hadoop的新手。如果我问的是废话，请纠正我并帮助我解决这个问题:)。我安装并配置了一个双节点hadoop集群(yarn)。主节点:2TBHDD，4GBRAM从节点:500GBHDD，4GBRAM数据节点:仅Master节点(不在Slave节点保留复制数据)map/减少:主节点&从节点。在10TB数据中，我上传了2TB到主节点(数据节点)。我仅将从属节点用于Map/Reduce(使用从属节点的100%CPU来运行查询)。我的问题:如果我向主节点添加一个新的2TB硬盘，并且我想向主节点上传2TB以上的硬盘，我该如何同时使用硬盘(旧硬盘中的数据和主节点中的新硬盘)？有没有办法在hdf

Hadoop 多 section li 节点 hive hadoop-yarn

hadoop - 将工件部署到 Hadoop 集群

是否有任何模式可以将应用程序(jar文件)部署到Hadoop-Custer？我不是在谈论map-reduce作业，而是为Spark、Flume等部署应用程序。仅在Hadoop生态系统中部署是不够的。您需要重启服务、部署配置(例如通过Ambari)等等。我还没有找到任何特定的工具。我假设您使用标准自动化工具(例如maven/jenkins)并自己完成缺失的部分是否正确？只是想知道我是否监督了什么。只是不想重新发明轮子；) 最佳答案如果您正在管理Hadoop生态系统，您可以使用Ambari和Cloudera的管理器。但是您需要停止并重

hadoop section 例如 deployment build

hadoop - 如何通过集群中的oozie工作流将文本文件加载到hdfs

我正在尝试使用oozie在配置单元脚本中加载文本/csv文件并每天安排它。文本文件在本地unix文件系统中。在oozie工作流中执行配置单元脚本之前，我需要将这些文本文件放入hdfs。在实时集群中，我们不知道作业将在哪个节点上运行。它会在集群中的任何一个节点上随机运行。谁能给我解决方案提前致谢。最佳答案不确定我明白你想做什么。在我看来，它行不通:Oozie服务器只能访问HDFS文件(与Hive相同)您的数据在某处的本地文件系统上那么为什么不事先将文件加载到HDFS中呢？可以在文件可用时(上游作业中的后处理操作)或在固定时间(使用

本文 hadoop section 配置单 hdfs oozie

hadoop - 多节点hadoop集群安装

抱歉，如果我的问题显得幼稚。我们计划使用CDH5.3.0或5.4.0。我们想实现一个多节点集群。我在不同的博客/资源上看到/阅读的示例多节点安装在不同的主机上有主节点和从节点。但是，我们受到主机数量的限制。我们只有2台强大的主机(32核400+GBRAM)，所以如果我们决定在一台主机上安装从机，在另一台主机上安装从机，我们最终将只有一个从机。我的问题是:master和slave可以在同一台主机上吗？我可以在一台主机上有多个从节点吗？也需要付费才能使用ClouderaManager，或者它像其他组件一样是开源的。如果您能指出一些资源的方向，这将有助于我理解上述情况，那将会很有帮助。感谢您

hadoop 多机上 section li bigdata cloudera

261 262 263264265 266 267