预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Application魅智能运维助力数据中心数字化转型文II中国民生银行信息科技部毕永军张舒伟、[/■前,民生银行正围绕“民营企业的将数据中心正在发生的问题以多渠道、多障处理时间等方面都能发挥重要作用。智3银行、数字金融的银行体经营角度、多粒度的方式呈现给运维专家等能运维目前仍处于初级阶段,主要在典型、一的银行、精细管理的银行”战略定位,全决策者,借助专家经验进行人工决策。同运维场景中提供服务。具体来说,有以下力推动民生银行实现稳健可持续发展。“数时,通过建设运维大数据平台和智能运维典型使用场景:在知识图谱方面,尝试构字金融的银行”就是将金融科技提升到核平台,分场景逐步替代人工决策,实现建数据中心各个运行组件之间的关系,并心战略层面,实施全方位数字化转型,打7x24小时不间断ft速决策。与告警和运维知识库关联,形成囊括整个造敏捷高效、体验极致的数字化智能银行。执行能力。为了快速恢复服务、降数据中心实体的“地图”,在故障或告警民生银行构建了“薄前台、强中台、低故障恢复时间,高效可靠的执行能力同发生时,按图索骥地寻找解决方案;在故稳后台”的信息系统架构,以更加敏捷的样重要。通过对常见运维操作的抽象,实障预测方面,根据性能指标的趋势来预测方式满足客户需求,支撑业务发展。最近,现场景标准化、流程标准化和动作标准化,未来可能产生故障的时点,便于做主动性基于分布式和微服务技术自主研发的分布固化到自动化运维系统中,供决策系统调防御;在故障发现层面,通过对性能指标式核心成功投产,将银行账户体系和业务用。当匹配到典型场景时,还可以用一键和应用日志的运行模式进行异常检测来提系统迁移到分布式架构上,标志着民生银处置的方式,提髙事件处置效率。前发现故障;在故障分析层面,综合运用行数字化转型进入了新阶段。数据底座。要建设上面提到的三种调用链分析、多维分析、基础组件故障定能力,数据底座是基础。数据中心经过多位等手段,自动化给出故障分析结论。数据驱动运维提高数据中心智能年的建设,运维工具众多,数据非常丰富,化水平但因为“数据孤岛”的存在,加上运维数故障发现和定位提升服务可靠性业务的数字化转型呼唤数据中心的据维度庞杂,难以综合利用,为此构建了平均故障处理时间是服务可靠性的数字化转型,民生银行提出了“数据驱动统一的运维数据中台作为底座。通过对所重要参考指标,民生银行提出“10分钟运维”战略,打造用数据感知、用数据决策、有的运维数据进行摸底,建立运维数据标定位故障,10分钟处置恢复”的“双十”标准化执行的智能化数据中心。“数据驱准,以自动化程序采集提供数据准确率,动运维”战略围绕以下几个方面展开。最后汇聚到数据运维中台上,对外提供数感知能力。面向数据中心全领域,对据消费接口。层级能力建设落地产品全部运维对象实现标准化管理,采集各个组织转型。数据中心网罗了各个领维度的运行数据,应用数据孪生技术,将域的技术专家,如何利用好专家的能力同运维对象映射到数字领域。借助运维对象样重要。基于GoogleSRE的理念,数据之间天然存在的关联关系,构建出运维知中心形成了跨技术条线的虚拟组,分专题识图谱,并在此基础上,应用智能故障发进行专项攻关,在数据中心层面统筹资源,现算法,对数据中心整个运行组件实现全统一建设。感知。作为“数据驱动运维”战略的重要拼决策能力。提升决策能力首先要在图(见右图),智能运维在感知能力、决“感知一切”的基础上实现“可视化一切”,策能力,提升数据中心运行效率,降低故67Application目标。为达到此目标,故障发现和定位能异常行为,实现故障自动识别。目前已实基础软件故障定位。通过对一段时力至关重要。现数十套重要信息系统的智能故障发现,间内的真实故障原因统计,我们发现基础从问题解决路径来说,首要目标是快在误报率和漏报率上较手工设置阈值具有软件的故障较为常见。在“纵向定位故障速准确地发现故障,通过构建模型学习系明显优势。原因”的过程中,根据系统内部的部署结统可用性指标的规律,实现对指标的实时多维特征分析。当故障发生时,快速构,构建出系统依赖的所有组件图谱,沿检测,同时基于日志的异常检测,达到告界定故障范围对故障的进一步处置具有指着图谱不断向下依次检查基础软件是否正警及时准确的目标。其次应当界定故障的导作用。银行的交易数据维度非常多,有常。定位到基础组件之后,还可以进一步影响范围,为故障处理决策提供准确的数地理维度如机房、服务器ip地址,交互定位其中的典型故障。对于不同的基础软据支撑。最后,经过故障定位的综合判断,维度如响应时间、返回码、源地址等,业件,借助运维专家知识,梳理出特定的指确定具体的故障原因,并以可视化的方式务维度如交易机构、业务种类、交易金额标集及其影响关系图谱,据此可深入挖掘提示,对于已知问题,推荐出相应的解决等。分析故障时段交易数据在哪些维