草庐IT

HA集群

全部标签

3、Kafka 线上集群部署方案怎么做?

文章目录1、操作系统的选择1.1、I/O模型的使用1.2、数据网络传输效率1.3、社区支持度2、磁盘的选择3、磁盘容量的规划3.1、举例思考本问题:3.2、计算一下:3.3、规划磁盘容量时你需要考虑下面这几个元素:4、带宽规划4.1、计算总结1、操作系统的选择对比Linux、Mac、Window,Linux系统显然要更加适合部署Kafka。主要有下面这三个方面,Linux的表现更胜一筹。1.1、I/O模型的使用主流的I/O模型通常有5种类型:阻塞式I/O、非阻塞式I/O、I/O多路复用、信号驱动I/O和异步I/O。通常情况下我们认为后一种模型会比前一种模型要高级。相关实现场景,比如Java中S

hadoop - 如何在 Hadoop 环境中查找集群名称?

我正在使用CDH5.5,想知道任何命令或查找集群名称的方法吗?我实际上正在尝试执行下面的api调用,但它抛出了一个错误。curl-uadmin:admin'http://localhost:7180/api/v1/clusters/namenode241'错误:{"message":"Cluster'namenodee241'notfound."} 最佳答案 除最后一部分外,您的命令是正确的。在您的命令中,您提到了集群名称namenode241。所以删除它并执行curl-uadmin:admin'http://localhostor

hadoop - Hadoop 集群环境中的 Mapreduce 作业连接被拒绝

我设置了一个4节点Hadoop集群,其中包含一个主节点和三个数据节点。在我尝试执行mapreduce作业之前,一切似乎都运行良好。Jps(主节点):[root@masterlogs]#jps26967SecondaryNameNode25720JobHistoryServer26778NameNode27115ResourceManager27839JpsJps(数据节点):[root@localhost~]#jps21872DataNode22257Jps21974NodeManagermaster节点上的yarn日志文件给出如下异常:2018-05-2221:59:10,376IN

hadoop - Hadoop 集群交互式用户的永久 Kerberos 票证

我有一个Hadoop集群,它使用公司的ActiveDirectory作为Kerberos领域。节点和最终用户Linux工作站都是Ubuntu16.04。它们使用PowerBrokerPBIS加入同一个域,因此工作站和网格节点之间的SSH登录是单点登录。最终用户从他们的工作站运行长时间运行的脚本,这些脚本重复使用SSH首先在集群上启动Spark/Yarn作业,然后跟踪他们的进度,这些脚本必须在晚上和周末保持运行,远远超过10小时Kerberos票证的生命周期。我正在寻找一种方法来为用户安装永久的、服务式的Kerberoskey表,从而使他们无需处理kinit。我知道这意味着任何人都可以作

Hadoop 单节点集群在 namenode 格式化期间设置错误

我已经在Windows10中安装了ApacheHadoop2.6.0。我一直在尝试解决这个问题,但未能从我的角度理解错误或任何错误。我已正确设置所有路径,Hadoop版本在命令提示符中正确显示版本。我已经在hadoop目录中创建了temp目录,例如c:\hadoop\temp。当我试图格式化Namenode时,我得到这个错误:C:\hadoop\bin>hdfsnamenode-format18/07/1820:44:55INFOnamenode.NameNode:STARTUP_MSG:/************************************************

hadoop - 在两节点 hadoop 集群中运行映射缩减作业时出错 : Too many fetch-failures, 读取任务输出时出错 http://localhost:50060/tasklog

我已经建立了一个双节点hadoop集群。我启动了hadoop文件系统和mapreduceddaemons没有错误,并验证它们正在主从上运行。我可以使用命令bin/hadoopdfs-getmergehdfs://my.domain.com:54310/user/wordcount/sunzi.txt/tmp/wordcount从主节点和从节点读取输入文件。当我运行mapreduce作业时,我在输出中看到错误。作业最终完成,但reduce部分花费了很长时间,并且每次打印错误时它都会继续返回map任务。我的站点配置文件引用了master的dns名称,所以我不知道为什么作业要尝试从“loca

hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?

以下用例:我对.gz压缩大小约为500GB的数据运行配置单元查询:selectcount(distinctc1),c2fromt1groupbyc2;此查询产生约2800个映射作业和约400个缩减作业。在设置具有20个实例(每个160GB实例存储)的Hadoop集群时,该工作将停止在97%map和21%reduceprogress,然后回落到94%map和19%reduceprogress,然后就没有任何进展了。我认为这是因为HDFS的磁盘空间已达到使用限制。也许我可以在当天晚些时候提供异常消息。如何:有没有办法根据正在处理的数据的输入大小粗略地预先计算所需的HDFS磁盘空间?请记住,

Hadoop 集群故障转移

我有一些关于Hadoop集群数据节点故障转移的问题:1:Whathappenthelinkisdownbetweenthenamenodeandadatanode(orbetween2datanodes)whenthehadoopclusterisprocessingsomedata?DoesHadoopclusterhaveanyOOTBtorecoverthisproblem?2:Whathappenonedatanodeisdownwhenthehadoopclusterisprocessingsomedata?另外还有一个问题是关于hadoop集群硬件配置的。假设我们将使用我们

Kubernetes使用ECK部署Elasticsearch和Kibana集群

Kubernetes使用ECK部署Elasticsearch和Kibana集群原文链接:Kubernetes使用ECK部署Elasticsearch8.0和Kibana集群(k8s)_k8selasticsearch8-CSDN博客ElasticCloudKubernetes(ECK)安装Elasticsearch、Kibana实战教程ElasticCloudKubernetes(ECK)安装Elasticsearch、Kibana实战教程-阿里云开发者社区k8s使用ECK部署Elasticsearch和Kibana集群一、安装ECKkubectlcreate-fhttps://downloa

两个安全(kerberos)集群之间的 Hadoop distcp

我有两个Hadoop集群,并且都运行相同的Hadoop版本。我在两个集群中都有一个用户“testuser”(示例)(因此两个集群中都存在testuserkeytabs)。Namenode#1(sourcecluster):hdfs://nn1:8020Namenode#2(destcluster):hdfs://nn2:8020我想使用hadoopdistcp将一些文件从一个集群复制到另一个集群。示例:在源集群中,我有一个路径为“/user/testuser/temp/file-r-0000”的文件,在目标集群中,目标目录为“/user/testuser/dest/”。所以我想要的是将