作者徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕Kubernetes、在离线混部与GPU容器化领域,KubernetesKEPMemoryQoS作者,Kubernetes积极贡献者。摘要qGPU是腾讯云推出的GPU共享技术,支持在多个容器间共享GPU卡资源,提供百分比算力与MB级显存细粒度分配和强隔离能力,并且搭配业界独有的GPU在离线混部技术,在充分保证业务安全、稳定的前提下,将GPU利用率提升到了极致。qGPU已服务内外部大量客户,帮助众多AI企业节省大量GPU成本。qGPU容器虚拟化产品现已在腾讯云TKE全量上线。腾讯云在业界(除NVID
作者刘旭,腾讯云高级工程师,专注容器云原生领域,有多年大规模Kubernetes集群管理经验,现负责腾讯云GPU容器的研发工作。背景目前TKE已提供基于qGPU的算力/显存强隔离的共享GPU调度隔离方案,但是部分用户反馈缺乏GPU资源的可观测性,例如无法获取单个GPU设备的剩余资源,不利于GPU资源的运维和管理。在这种背景下,我们希望提供一种方案,可以让用户在Kubernetes集群中直观的统计和查询GPU资源的使用情况。目标在目前TKE共享GPU调度方案的基础上,从以下几个方面增强GPU设备的可观测性:支持获取单个GPU设备的资源分配信息。支持获取单个GPU设备的健康状态。支持获取某个节点上
作者刘旭,腾讯云高级工程师,专注容器云原生领域,有多年大规模Kubernetes集群管理经验,现负责腾讯云GPU容器的研发工作。背景目前TKE已提供基于qGPU的算力/显存强隔离的共享GPU调度隔离方案,但是部分用户反馈缺乏GPU资源的可观测性,例如无法获取单个GPU设备的剩余资源,不利于GPU资源的运维和管理。在这种背景下,我们希望提供一种方案,可以让用户在Kubernetes集群中直观的统计和查询GPU资源的使用情况。目标在目前TKE共享GPU调度方案的基础上,从以下几个方面增强GPU设备的可观测性:支持获取单个GPU设备的资源分配信息。支持获取单个GPU设备的健康状态。支持获取某个节点上
关于我们更多关于云原生的案例和知识,可关注同名【腾讯云原生】公众号~福利:①公众号后台回复【手册】,可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~②公众号后台回复【系列】,可获得《15个系列100+篇超实用云原生原创干货合集》,包含Kubernetes降本增效、K8s性能优化实践、最佳实践等系列。③公众号后台回复【白皮书】,可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》④公众号后台回复【光速入门】,可获得腾讯云专家5万字精华教程,光速入门Prometheus和Grafana。作者徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研
关于我们更多关于云原生的案例和知识,可关注同名【腾讯云原生】公众号~福利:①公众号后台回复【手册】,可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~②公众号后台回复【系列】,可获得《15个系列100+篇超实用云原生原创干货合集》,包含Kubernetes降本增效、K8s性能优化实践、最佳实践等系列。③公众号后台回复【白皮书】,可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》④公众号后台回复【光速入门】,可获得腾讯云专家5万字精华教程,光速入门Prometheus和Grafana。作者徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研