草庐IT

集群容错

全部标签

mongodb - 使用 golang 从已经运行的集群的主实例重播另一个 mongodb 实例中的 oplog

我正在以json格式存储来自正在运行的主要mongodb实例的操作日志[{"Timestamp":6477723955623886852,"HistoryID":166676398345289971,"MongoVersion":2,"Operation":"i","NameSpace":"test.tests","Object":{"__v":0,"_id":"59e57f9e8489535b1848d32d","num":9795},"QueryObject":null},{"Timestamp":6477723955623886853,"HistoryID":3344156456

amazon-web-services - AWS ECS SDK.使用 SDK 为 ECS 集群注册新的容器实例 (EC2)

我在使用AWSSDK时遇到过这个问题。目前我正在使用golang的SDK,但也欢迎其他语言的解决方案!我通过SDK创建了ECS集群现在我需要为这个集群添加EC2容器。我的问题是我无法使用AmazonECS代理通过配置指定集群名称:#!/bin/bashechoECS_CLUSTER=your_cluster_name>>/etc/ecs/ecs.config或类似的东西。我只能使用SDK。我找到了名为RegisterContainerInstance的方法.但是它有注释:ThisactionisonlyusedbytheAmazonECSagent,anditisnotintended

搭建hadoop集群初次格式化namenode时不小心格式化了多次,主节点namenode或者从节点datanode进程不能启动,怎么办?

我们在搭建完hadoop集群时,初次启动HDFS集群,需要对主节点进行格式化操作,其本质是清理和做一些准备工作,因为此时的HDFS在物理上还是存在的。而且主节点格式化操作只能进行一次。那我们在格式化时,不小心格式化多次,就会导致主从节点之间互相不识别。然后导致启动hadoop集群时,主节点的namenode进程可能不会启动或者从节点的datanode可能不会启动。这里给出一种解决方法:我们在配置hadoop的配置文件core-site.xml时,其中有一组参数hadoop.tmp.dir,它的值指定的是配置hadoop的临时目录我们把tmp目录删除,再重新格式化即可。先进入/export/se

ubuntu - 完成作业不稳定的 Kubernetes 集群;充满 "http2: no cached connection was available"的 kubelet 日志

总结我有各种单节点Kubernetes集群,这些集群在累积约300个已完成的作业后变得不稳定。例如,在一个集群中,有303个已完成的作业:root@xxxx:/home/xxxx#kubectlgetjobs|wc-l303观察我观察到的是kubelet日志中充满了这样的错误消息:kubelet[877]:E021909:06:14.637045877reflector.go:134]object-"default"/"job-162273560":无法列出*v1.ConfigMap:获取https://172.13.13.13:6443/api/v1/namespaces/defau

服务搭建篇(七) Elasticsearch单节点部署以及多节点集群部署

感兴趣的话大家可以关注一下公众号:猿人刘先生,欢迎大家一起学习,一起进步,一起来交流吧!1.ElasticsearchElasticsearch(简称ES)是一个分布式,RESTful风格的搜索和数据分析引擎,使用java开发并且是当前最流行的开源的企业级搜索引擎,能够达到近实时搜索,稳定,可靠,快速,安装使用方便。客户端支持Java、.NET(C#)、PHP、Python、Ruby等多种语言。官方网站:https://www.elastic.co/下载地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch2.单节点

K8S集群中Node节点资源不足导致Pod无法运行的故障排查思路

K8S集群中Node节点资源不足导致Pod无法运行的故障排查思路文章目录K8S集群中Node节点资源不足导致Pod无法运行的故障排查思路1.Node节点资源不足可能会产生的故障2.Node节点资源不足故障排查案例一3.Node节点资源不足故障排查案例二1.Node节点资源不足可能会产生的故障故障一:Pod数量太多超出物理节点的限制每一台Node节点中默认限制最多运行110个Pod资源,当一个应用程序有成百上千的Pod资源时,如果不扩容Node节点或者修改最大Pod数量限制,那么就会导致部分Pod资源无法正常运行,因为节点已经没有资源可以被调度了。解决思路就是扩容Node节点数量或者修改Pod的

go - 集群中 n 个 Web 服务器之间的文件同步

Web集群中有n个节点。文件可以上传到任何节点,然后必须分发到每个其他节点。这种分布不必在事务中发生(事实上它不能,分布式事务不能扩展)并且一些延迟是可以接受的,尽管必须是最小的。可以任意解决冲突(通常最后写入获胜),前提是解决方案也分发给所有节点,以便最终所有节点都具有相同的文件集。可以动态添加和删除节点,而无需重新配置现有节点。必须没有单点故障,也不需要额外的盒子来解决这个问题(比如RabbitMQ)我正在考虑使用consul.io进行动态配置,以便每个节点都可以引用consul来确定其他可用的节点,并编写一个守护进程(Golang)来监视相关文件夹并使用其他节点进行通信零MQ。虽

go - 用于在 etcd 集群中查找 key 的 API

我正在尝试编写一段代码,我需要在其中查找某个key是否存在于etcd中。我试过这个:_,err=kapi.Get(context.Background(),key,nil)iferr!=nil{returnerr}else{...但即使键不在集群中,错误也总是nil。知道我在这里做错了什么吗?或者是否有任何其他API调用? 最佳答案 如果你在这里使用goclientv3KV客户端:https://godoc.org/go.etcd.io/etcd/clientv3#KV它返回以下类型:https://godoc.org/go.etc

go - 在本地使用 k8s go-client 连接到集群

我想运行GoK8S客户端库并使用我本地定义的kubeconfig连接到集群mac下/Users/i0334456/.kube/config错误是:#k8s-go-client/vendor/k8s.io/client-go/restvendor/k8s.io/client-go/rest/request.go:598:31:notenoughargumentsincalltowatch.NewStreamWatcherhave(*versioned.Decoder)want(watch.Decoder,watch.Reporter)这是我尝试使用的程序packagemainimport

go - 如何从集群内 client-go api 调用中检索 kubectl describe pods <namespace> 中的所有数据

我需要获取一些pod信息,这些信息将用于一些将在集群内运行的单元测试。我需要kubectldescribepo提供的所有信息,但来自集群api调用。我有一些工作代码可以对apis/metrics.k8s.io/v1beta1/pods进行api调用,并在minikube上安装了metrics-server进行测试,这一切正常并给我这样的输出:Namespace:kube-systemPodname:heapster-rgnljSelfLink:/apis/metrics.k8s.io/v1beta1/namespaces/kube-system/pods/heapster-rgnljC