草庐IT

HA集群

全部标签

Hadoop 迷你集群模拟 (MiniDFSCluster)

关于hadoop-minicluster我需要你的帮助我正在使用scala(使用sbt)并尝试模拟HDFS的调用。我播种hadoop-minicluster用于部署一个小集群并在其上进行测试。但是,当我添加sbt依赖时:libraryDependencies+="org.apache.hadoop"%"hadoop-minicluster"%"3.1.0"%测试没有添加源,我无法导入包org.apache.hadoop.hdfs.MiniDFSCluster你知道我怎么解决这个问题吗?谢谢你的回答 最佳答案 令人惊讶的是,它不在ha

hadoop - 我们可以在同一个 hadoop 集群中同时使用 Fair scheduler 和 Capacity Scheduler

我们可以在同一个hadoop集群中同时使用Fairscheduler和CapacityScheduler吗?哪个调度器是好的和有效的。谁能帮帮我? 最佳答案 我认为两者不能同时使用。这也没有意义。为什么要在同一个集群中使用这两种类型的调度?由于特定的用例,两种调度算法都出现了。Fairschedulingisamethodofassigningresourcestojobssuchthatalljobsget,onaverage,anequalshareofresourcesovertime.Whenthereisasinglejo

hadoop - 如何设置集群中每个节点的 tasktracker 数量?

我看到我们可以设置每个tasktracker的map/reduce任务数量,但我如何设置集群中每个节点的tasktracker数量?如何关闭安全性以便我可以在每个节点上运行多个tasktracker?在hdfs-site.xml中将dfs.permissions设置为false就足够了吗?阿伦 最佳答案 为什么需要多个任务跟踪器?您可以根据您在tasktracker中设置的槽数运行多个作业。JobTracker与tasktracker对话以查找它在服务器上是否有任何空闲插槽(从数据所在的同一节点开始,如果没有则在其他地方)如果您有多

scala - 如何使用 Spark 独立集群在工作节点上管理多个执行程序?

到目前为止,我只在Hadoop集群上使用Spark,并将YARN作为资源管理器。在那种类型的集群中,我确切地知道要运行多少个执行程序以及资源管理是如何工作的。但是,知道我正在尝试使用独立的SparkCluster,我有点困惑。纠正我错误的地方。来自thisarticle,默认情况下,一个工作节点使用该节点的所有内存减去1GB。但我知道通过使用SPARK_WORKER_MEMORY,我们可以使用更少的内存。例如,如果节点的总内存为32GB,但我指定为16GB,那么Sparkworker不会在该节点上使用超过16GB的内存吗?但是执行者呢?假设我想在每个节点上运行2个执行程序,我可以通过在

Hadoop集群,Linux为主,windows 7为从

我想搭建一个hadoop环境,linuxfedora为主,windows7机器为从。这种组合是否可行?如果可行,我是否需要在Windows7中安装cygwin? 最佳答案 好的做法是不要在Windows上运行hadoop(就这么简单)。你为什么要这么做?如果您想测试某些东西,请使用伪分布式模式(在一台机器上运行所有hadoop服务)另外,我建议使用一些hadoop发行版,例如cloudera。此链接逐步说明了如何设置它。https://ccp.cloudera.com/display/CDH4DOC/CDH4+Installatio

Hadoop HA部署过程中出现主备namenode或datanode挂掉的问题

在部署HadoopHA的过程时,当进行到hdfsnamenode-format格式化这一步骤时显示org.apache.hadoop.hdfs.qjournal.client.QuorumException:UnabletocheckifJNsarereadyforformatting.1exceptionsthrown:拒绝连接查阅多篇文章分析可知其原因是节点之间无法通信,所以无法建立连接解决方法1.首先查看配置文件hdfs中dfs.namenode.shared.edits.dir是否出错2.查看zk集群是否启动,其次查看master和slave1上的journalnode是否启动3.查阅

python - Hadoop 集群 - 在运行作业之前,我是否需要在所有机器上复制我的代码?

这就是让我感到困惑的地方,当我使用wordcount示例时,我将代码保留在master并让他与slave一起做事并且它运行良好但是当我运行我的代码时,它开始在奴隶上失败,给出奇怪的错误,如Traceback(mostrecentcalllast):File"/app/hadoop/tmp/mapred/local/taskTracker/hduser/jobcache/job_201110250901_0005/attempt_201110250901_0005_m_000001_1/work/./mapper.py",line55,infromsrc.utilitiesimportu

hadoop - 如何运行计算并查看远程 Hadoop 集群的计算过程?

我有一个java程序,我想从它发送任务(jar)到远程哈多普。我需要将特殊参数传递给jarofcourse。如果计算任务刚刚结束,java程序必须知道这一点。我可以通过hadoopAPI实现吗?我在哪里也可以获得文章或其他东西? 最佳答案 Hadoop有一些用于此的API。因此,如果您为Hadoop作业编写Java代码,您可以定义作业特征,例如:job.SetMapperClass(),job.setReducerClass(),job.setPartitionerClass(),job.setInputPath(),等..然后你运

hadoop - EMR集群如何连接JobTracker

我正在使用ElasticMapReduce集群。我尝试通过链接http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-ssh-tunnel.html连接作业跟踪器、任务跟踪器等Web界面我正在使用putty,但是我无法通过超时错误连接到master-public-dns:9100。如何连接到这些接口(interface)? 最佳答案 您的代理启用了吗?在您查询之后,我按照macosx的说明进行操作,并且能够让它正常工作。我在firefox中的foxy

hadoop - 如何为现有的 hadoop 集群部署 ambari

正如我在本标题中提到的,我可以跳过为该集群安装hadoop集群的步骤吗?该集群已经存在并且正在使用中? 最佳答案 Ambari依靠“堆栈”定义来描述Hadoop集群由哪些服务组成。Hortonworks定义了一个自定义的Ambari堆栈,称为HDP。您可以定义自己的堆栈并使用您想要的任何服务和相应版本。有关定义堆栈和服务的更多信息,请参阅ambariwiki。话虽这么说,但我认为不可能将您预先安装的Hadoop与Ambari一起使用。Ambari用于配置和管理hadoop集群。它跟踪每个堆栈服务的状态,以及每个服务组件的状态。由于您