Kubernetes集群

hadoop - hadoop集群中zookeeper的硬件推荐

我有一个轻量级的Hadoop环境:2个namenodes(jobtracker/HBaseMaster)+3个datanodes(tasktracker/HBaseRegion)都像是两个四核CPU+16-24G内存+总共15T我想知道如果我要3个动物园管理员，动物园管理员会是什么样的服务器规范？谁能分享一下经验？最佳答案来自HBase'sperpective-GiveeachZooKeeperserveraround1GBofRAM,andifpossible,itsowndedicateddisk(Adedicateddis

hadoop - 将可执行 jar 发送到 hadoop 集群并作为 "hadoop jar"运行

我一般用main方法制作一个可执行的jar包，然后通过命令行“hadoopjarSome.jarClassWithMaininputoutput”运行在这个主要方法中，可以配置作业和配置，配置类有一个setter来指定映射器或缩减器类，如conf.setMapperClass(Mapper.class)。但是，在远程提交作业的情况下，我应该设置jar和Mapper或更多的类来使用hadoopclientapi。job.setJarByClass(HasMainMethod.class);job.setMapperClass(Mapper_Class.class);job.setRedu

hadoop 并作 code section cloud bigdata

3、Kafka 线上集群部署方案怎么做？

文章目录1、操作系统的选择1.1、I/O模型的使用1.2、数据网络传输效率1.3、社区支持度2、磁盘的选择3、磁盘容量的规划3.1、举例思考本问题：3.2、计算一下：3.3、规划磁盘容量时你需要考虑下面这几个元素：4、带宽规划4.1、计算总结1、操作系统的选择对比Linux、Mac、Window，Linux系统显然要更加适合部署Kafka。主要有下面这三个方面，Linux的表现更胜一筹。1.1、I/O模型的使用主流的I/O模型通常有5种类型：阻塞式I/O、非阻塞式I/O、I/O多路复用、信号驱动I/O和异步I/O。通常情况下我们认为后一种模型会比前一种模型要高级。相关实现场景，比如Java中S

集群部署 xff0c xff xff0 kafka 分布式

hadoop - 如何在 Hadoop 环境中查找集群名称？

我正在使用CDH5.5，想知道任何命令或查找集群名称的方法吗？我实际上正在尝试执行下面的api调用，但它抛出了一个错误。curl-uadmin:admin'http://localhost:7180/api/v1/clusters/namenode241'错误:{"message":"Cluster'namenodee241'notfound."} 最佳答案除最后一部分外，您的命令是正确的。在您的命令中，您提到了集群名称namenode241。所以删除它并执行curl-uadmin:admin'http://localhostor

何在 hadoop section code admin

hadoop - Hadoop 集群环境中的 Mapreduce 作业连接被拒绝

我设置了一个4节点Hadoop集群，其中包含一个主节点和三个数据节点。在我尝试执行mapreduce作业之前，一切似乎都运行良好。Jps(主节点):[root@masterlogs]#jps26967SecondaryNameNode25720JobHistoryServer26778NameNode27115ResourceManager27839JpsJps(数据节点):[root@localhost~]#jps21872DataNode22257Jps21974NodeManagermaster节点上的yarn日志文件给出如下异常:2018-05-2221:59:10,376IN

Mapreduce hadoop gt lt property hadoop-yarn

hadoop - Hadoop 集群交互式用户的永久 Kerberos 票证

我有一个Hadoop集群，它使用公司的ActiveDirectory作为Kerberos领域。节点和最终用户Linux工作站都是Ubuntu16.04。它们使用PowerBrokerPBIS加入同一个域，因此工作站和网格节点之间的SSH登录是单点登录。最终用户从他们的工作站运行长时间运行的脚本，这些脚本重复使用SSH首先在集群上启动Spark/Yarn作业，然后跟踪他们的进度，这些脚本必须在晚上和周末保持运行，远远超过10小时Kerberos票证的生命周期。我正在寻找一种方法来为用户安装永久的、服务式的Kerberoskey表，从而使他们无需处理kinit。我知道这意味着任何人都可以作

票证 Kerberos section hadoop ssh active-directory ubuntu-16.04

Hadoop 单节点集群在 namenode 格式化期间设置错误

我已经在Windows10中安装了ApacheHadoop2.6.0。我一直在尝试解决这个问题，但未能从我的角度理解错误或任何错误。我已正确设置所有路径，Hadoop版本在命令提示符中正确显示版本。我已经在hadoop目录中创建了temp目录，例如c:\hadoop\temp。当我试图格式化Namenode时，我得到这个错误:C:\hadoop\bin>hdfsnamenode-format18/07/1820:44:55INFOnamenode.NameNode:STARTUP_MSG:/************************************************

namenode Hadoop share jar

hadoop - 在两节点 hadoop 集群中运行映射缩减作业时出错 : Too many fetch-failures, 读取任务输出时出错 http://localhost:50060/tasklog

我已经建立了一个双节点hadoop集群。我启动了hadoop文件系统和mapreduceddaemons没有错误，并验证它们正在主从上运行。我可以使用命令bin/hadoopdfs-getmergehdfs://my.domain.com:54310/user/wordcount/sunzi.txt/tmp/wordcount从主节点和从节点读取输入文件。当我运行mapreduce作业时，我在输出中看到错误。作业最终完成，但reduce部分花费了很长时间，并且每次打印错误时它都会继续返回map任务。我的站点配置文件引用了master的dns名称，所以我不知道为什么作业要尝试从“loca

时出中运 mapred 201212201046 JobClient hadoop mapreduce

hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?

以下用例:我对.gz压缩大小约为500GB的数据运行配置单元查询:selectcount(distinctc1),c2fromt1groupbyc2;此查询产生约2800个映射作业和约400个缩减作业。在设置具有20个实例(每个160GB实例存储)的Hadoop集群时，该工作将停止在97%map和21%reduceprogress，然后回落到94%map和19%reduceprogress，然后就没有任何进展了。我认为这是因为HDFS的磁盘空间已达到使用限制。也许我可以在当天晚些时候提供异常消息。如何:有没有办法根据正在处理的数据的输入大小粗略地预先计算所需的HDFS磁盘空间？请记住，

Map-Reduce calculate hadoop apache java mapreduce hive hdfs elastic-map-reduce

Hadoop 集群故障转移

我有一些关于Hadoop集群数据节点故障转移的问题:1:Whathappenthelinkisdownbetweenthenamenodeandadatanode(orbetween2datanodes)whenthehadoopclusterisprocessingsomedata?DoesHadoopclusterhaveanyOOTBtorecoverthisproblem?2:Whathappenonedatanodeisdownwhenthehadoopclusterisprocessingsomedata?另外还有一个问题是关于hadoop集群硬件配置的。假设我们将使用我们

Hadoop 集群 strong section

65 66 676869 70 71