预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于大数据网格的电信IT系统智能运维体系郭云峰;蔡珩;戈磊【摘要】提出利用电信大数据平台的优势,创新地利用人工智能的自学习运维模式,通过采集并分析IT系统的海量日志数据主动感知各个IT系统节点的运行状态,通过智能图计算和网格星云图直观展示各个IT系统节点的影响力、健康度以及依赖关系,利用Keras深度学习框架实现节点故障智能预测,构建电信IT系统大数据网格智能运维体系.【期刊名称】《电信科学》【年(卷),期】2018(034)006【总页数】9页(P153-161)【关键词】大数据;网格;智能运维;智能图计算;网格星云图;故障预测【作者】郭云峰;蔡珩;戈磊【作者单位】中国电信股份有限公司上海分公司,上海200041;中国电信股份有限公司上海分公司,上海200041;中国电信股份有限公司上海分公司,上海200041【正文语种】中文【中图分类】TP391.1目前电信传统运维体系在运维过程中存在“系统变化感知滞后”“未来故障无法预测”“故障响应慢成本高”三大痛点。针对上述痛点,中国电信股份有限公司上海分公司(以下简称上海电信)对现有的运维体系进行量子化划分,同时利用国际先进的大数据智能图计算分析技术和Keras深度学习算法,创新性地推出了大数据网格智能运维方案,可以大大提升电信IT系统的运维能力,主要表现在以下方面。•电信传统运维需要预先定义各个节点的功能范围以及系统之间的连接,系统变化感知滞后。大数据网格智能运维利用电信大数据平台的优势,通过电信IT系统海量日志的自动采集及分析,主动感知IT系统节点运行状态的变化。•电信传统运维不提供电信IT系统各节点的点、线、面关系的分析及展示功能。大数据网格智能运维通过构建大数据运维网格模型,采用网格星云图直观展示各个系统节点的影响力、健康度以及依赖关系,实现IT系统节点的立体感知。•电信传统运维的告警处理属于事后人工修复,故障响应时间长。大数据网格智能运维采用人工智能的深度学习运维模式,预测各个系统节点未来可能发生的潜在故障,真正实现“防患于未然”。综上所述,大数据网格智能运维实现了主动化、智能化的电信IT系统运维变革,大大提升了电信IT系统的维护效率,同时节约了电信IT系统维护成本,满足电信智慧运维的需求。电信传统运维体系在运维过程中存在以下痛点。•传统运维需要预先定义各个节点的功能范围以及系统之间的连接,但是实际生产过程中,各个节点的功能经常升级扩容而且节点连接也经常发生变化,传统运维无法自动感知上述变化,将出现严重系统变化更新滞后的问题。•传统运维通常是根据系统输出的日志,分析系统历史状态的信息和告警,无法提供预测未来故障的关键智能分析功能,不能及时发现系统可能发生的潜在故障,无法实现“防患于未然”。•传统运维产生告警通知维护人员进行维修,属于事后的人工修复,故障的响应时间为小时级别甚至天级别,不能满足实时性高的业务需求;系统运维人员需要花费大部分时间和精力处理一些简单重复的问题,体力劳动量偏大,工作效率低,需要投入大量的维护资源。综上所述,电信传统运维体系已不能满足现有业务发展的需要,需要引入智能化运维体系,实现系统变化自动感知、主动预测未来故障、故障自动派单修复,以提升电信IT系统的运维水平,增强企业竞争力。电信传统运维体系通常采用C/S以及B/S架构的第二代数据处理技术,面对海量数据,系统利用关系型数据库和复杂SQL语言的传统数据处理方法将占用大量处理与存储资源,造成承载的服务器负载过高,执行效率低下,无法胜任大数据时代的要求。为了应对大数据的挑战,上海电信构建了大规模的Hadoop大数据平台,通过分散存储满足海量IT系统日志的存储需求,利用并行计算实现节点主动感知和大数据网格构建,同时利用深度学习实现故障智能预测,从而为上海电信实施大数据网格和智能化运维提供了必备的条件。电信传统运维体系采用预定义运维模式,通过人工预先定义各个IT系统的节点配置。同时由于系统不具备大数据分析挖掘能力,所以不能实时感知IT系统的节点运行状态,节点的影响力、健康度以及依赖关系,也不能提供故障预测等智能分析功能。日益兴盛的人工智能技术,让人们意识到赋予电信IT系统“智能化”是大趋势。AIOps(artificialintelligenceforIToperations)是将AI人工智能用于IT运维领域的人工智能平台,结合大数据、机器学习和其他技术来支持所有主要的IT运营功能。上海电信创新地利用人工智能的全文检索算法,通过建立自我感知模式,可以主动发现系统节点,感知节点间的真实拓扑关联,自动生成点线面立体运维网格;同时通过海量日志不断训练深度学习模型,可以实现运维故障智能预测。正是通过引入全文检索和深度学习等人工智能算法,才能颠覆传统网管的预定义模式,为上海电信实施大数据网格和智能化运维提供了核心技术支