预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114968636A(43)申请公布日2022.08.30(21)申请号202210543996.5(22)申请日2022.05.19(71)申请人北京沃东天骏信息技术有限公司地址100176北京市北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人裴周宇付海涛(74)专利代理机构中原信达知识产权代理有限责任公司11219专利代理师李娜张效荣(51)Int.Cl.G06F11/07(2006.01)权利要求书2页说明书8页附图5页(54)发明名称一种故障处理的方法和装置(57)摘要本发明公开了一种故障处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:监听目标任务管理器的运行状态;响应于监听到指示所述运行状态异常的异常信号,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,以使所述作业管理器触发针对所述异常信息的故障恢复策略。该实施方式通过实时获取针对任务管理器的运行状态异常的异常信号,并及时通知对应的作业管理器,以使得作业管理器及时触发故障恢复,极大地加快了任务的恢复速度,提高了业务处理的效率。CN114968636ACN114968636A权利要求书1/2页1.一种故障处理的方法,其特征在于,包括:监听目标任务管理器的运行状态;响应于监听到指示所述运行状态异常的异常信号,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,以使所述作业管理器触发针对所述异常信息的故障恢复策略。2.根据权利要求1所述的方法,其特征在于,所述异常信号为kubelet进程发送的停止信号。3.根据权利要求1所述的方法,其特征在于,所述异常信号为所述目标任务管理器的退出信号。4.根据权利要求1所述的方法,其特征在于,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,包括:从缓存中获取所述作业管理器的地址信息,根据所述地址信息向所述作业管理器发送所述异常信息。5.根据权利要4所述的方法,其特征在于,从缓存中获取所述作业管理器的地址信息之前,包括:监控与所述目标任务管理器对应的作业管理器的地址信息,并将监控得到的所述作业管理器的地址信息和所述目标任务管理器的标识对应保存至所述缓存中。6.根据权利要求1所述的方法,其特征在于,所述作业管理器触发针对所述异常信息的故障恢复策略,包括:所述作业管理器向资源管理器发送指示所述目标任务管理器异常的异常通知,所述资源管理器将所述异常通知发送至心跳管理器,所述心跳管理器在接收到所述异常通知后取消对所述目标任务管理器的心跳监测,所述心跳管理器回调所述资源管理器,以使所述资源管理器取消对所述目标任务管理器的注册,以触发所述故障恢复策略。7.根据权利要求6所述的方法,其特征在于,所述作业管理器触发针对所述异常信息的故障恢复策略,还包括:所述资源管理器回调所述作业管理器,以使所作业管理器获取所述目标任务管理器中执行失败的任务;所述作业管理器将所述执行失败的任务重新分配至新启动的任务管理器中,以实现故障恢复。8.一种故障处理的装置,其特征在于,包括:监听模块,监听目标任务管理器的运行状态;发送模块,响应于监听到指示所述运行状态异常的异常信号,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,以使所述作业管理器触发针对所述异常信息的故障恢复策略。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑7中任一所述的方法。2CN114968636A权利要求书2/2页10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1‑7中任一所述的方法。3CN114968636A说明书1/8页一种故障处理的方法和装置技术领域[0001]本发明涉及计算机技术领域,尤其涉及一种故障处理的方法和装置。背景技术[0002]随着大数据技术的发展,业务对实时性的要求越来越高的,越来越多的业务利用实时计算加速业务的发展,基于云原生的实时计算产品越来越受到广泛的应用,其中FlinkonK8s的架构模式更是成为业务主流。[0003]在FlinkonK8s的架构下,TaskManager(任务管理器)进程异常依赖TaskManager到ResourceManager(资源管理器)的心跳机制,心跳默认超时时间一般大于60秒,超时后触发故障恢复任务,但是心跳超时时间较长,故障恢复时间较长,不能满足业务计算的实时性要求。发明内容[0004]有鉴于此,本发明实施例提供一种