预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115328735A(43)申请公布日2022.11.11(21)申请号202211012787.4(22)申请日2022.08.23(71)申请人杭州谐云科技有限公司地址310023浙江省杭州市余杭区五常街道文一西路998号7幢301-401室(72)发明人徐云远叶进沈宏杰陈炜舜王翱宇(74)专利代理机构北京汇信合知识产权代理有限公司11335专利代理师卢亮辉(51)Int.Cl.G06F11/30(2006.01)G06F11/07(2006.01)权利要求书2页说明书6页附图5页(54)发明名称一种基于容器化应用管理系统的故障隔离方法和系统(57)摘要本发明公开了一种基于容器化应用管理系统的故障隔离方法和系统,属于容器化应用管理的技术领域,所述故障隔离方法包括容器隔离的方法:对容器进行健康监测,获得一个或多个故障容器组;获取管理故障容器组的Deployment;判断所述Deployment是否具有多个故障容器组;若是,将Deployment的一个或多个第一故障容器组进行隔离,并终止第二故障容器组。容器隔离的过程中,保留故障应用POD,方便排查故障原因;同一Deployment下的多个故障容器组,仅隔离其中的部分故障容器组,而终止或杀死其余的故障容器组,减少隔离造成的资源消耗。CN115328735ACN115328735A权利要求书1/2页1.一种基于容器化应用管理系统的故障隔离方法,其特征在于,所述故障隔离方法包括容器隔离的方法:对容器进行健康监测,获得一个或多个故障容器组;获取管理所述故障容器组的Deployment;判断所述Deployment是否具有多个故障容器组;若是,将Deployment的一个或多个第一故障容器组进行隔离,并终止Deployment的第二故障容器组。2.根据权利要求1所述的隔离方法,其特征在于,利用隔离的第一故障容器组进行故障排查:利用排查脚本对第一故障容器组进行故障排查,并保存排查结果。3.根据权利要求1所述的隔离方法,其特征在于,监测容器健康的方法包括:通过探针检测故障容器;或者监测出以下任一情况或它们的组合时存在故障容器:容器的CPU或者内存的使用率持续超过第一域值;容器的线程池满;容器出现错误关键字。4.根据权利要求1所述的隔离方法,其特征在于,还包括通过第一标签进行隔离的方法:为故障容器组设置第一标签;将具有第一标签的容器组移出Deployment、移除该容器组在Endpoint列表中的IP和端口、并注销所述容器组。5.根据权利要求1‑4任一项所述的隔离方法,其特征在于,还包括容器组的调度方法:判断第三容器组是否满足第一条件:为故障容器组、且启动时间超过第二域值;若满足,删除所述第三容器组,并记录所在的节点信息;获得新建第四容器组的调度列表;判断所述调度列表是否包括所述节点;若包括所述节点,从所述调度列表中删除所述节点;若不包括,按照所述调度列表进行调度;判断所述调度列表是否为空;若为空,清除所记录的节点信息。6.根据权利要求1‑4任一项所述的隔离方法,其特征在于,所述故障隔离方法还包括节点隔离的方法:检查所述节点的健康状态,其中,所述检查的包括以下任一项目或它们的组合:kubelet健康检查、磁盘压力、内存压力、PID压力、网络、docker组件、containerd组件和Calico组件;若节点的健康存在故障,隔离所述节点。7.根据权利要求6所述的隔离方法,其特征在于,若节点的健康存在故障,查看所述节点的全局锁是否有效;若无效,隔离所述节点、注销相应的容器组,并为所述节点打上第二标签。8.根据权利要求7所述的隔离方法,其特征在于,部署在节点中的节点监测模块定期将自身的心跳上报到全局锁的节点对象中;2CN115328735A权利要求书2/2页节点控制器监听节点对象、并判断所述节点对象的心跳数据是否存在异常;若存在异常,通过节点控制器为所述节点打上第二标签,并隔离所述节点。9.根据权利要求8所述的隔离方法,其特征在于,docker组件的检测指标包括:Dockerd进程存在、且不为僵尸进程,每一秒检测一次,连续失败三次,则认为节点故障;Calico组件的检测指标包括:Kubelet进程存在、且不为僵尸进程,每一秒检测一次,连续失败三次,则认为节点故障;containerd组件的检测指标包括:docker‑containerd进程存在、且不为僵尸进程,Confd/Felix/Bird进程存在、且不为僵尸进程,每一秒检测一次,连续失败三次,则认为节点故障。10.一种用于实现如权利要求1‑9任一项所述隔离方法的系统,其特征在于,包括容器监测模块和容器隔离模块,所述容器监测模块用于对容器进行健康监测,获得一个或多个故障容器组;所