预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114676105A(43)申请公布日2022.06.28(21)申请号202210317584.X(22)申请日2022.03.29(71)申请人国家电网有限公司信息通信分公司地址100053北京市西城区白广路二条1号(72)发明人闫龙川何永远郭永和牛佳宁张朝霞曹津平彭元龙(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师钱娜(51)Int.Cl.G06F16/18(2019.01)G06F16/16(2019.01)G06F16/11(2019.01)G06K9/62(2022.01)权利要求书3页说明书13页附图6页(54)发明名称一种日志数据预处理方法及装置(57)摘要本发明提供一种日志数据预处理方法及装置,通过对获取的待处理的第一日志文件进行格式转换,得到第二日志文件,为第二日志文件中同类型的错误日志数据分配相同错误标记,得到第三日志文件,基于具有不同错误标记的所有错误日志数据的时间戳和预设序列长度,构建多个故障相关序列,计算所有故障相关序列之间的序列似然度,将序列似然度小于预设值的故障相关序列对划分为一组,得到聚类后的故障相关序列并进行训练,得到对应的故障分类模型。基于上述,对日志数据进行预处理时,能够在减少数据量的基础上保留更多与故障相关的日志数据,有利于后续故障预测过程中更为精准的进行预测各类故障。CN114676105ACN114676105A权利要求书1/3页1.一种日志数据预处理方法,其特征在于,所述方法包括:获取待处理的第一日志文件,对所述待处理的第一日志文件进行格式转换,得到第二日志文件,所述第二日志文件中的日志数据不重复、时间戳格式统一且按时间戳顺序排列;确定所述第二日志文件中的错误日志数据,为同类型的错误日志数据分配相同的错误标记,得到第三日志文件;提取所述第三日志文件中的日志数据,并基于具有不同错误标记的所有错误日志数据的时间戳和预设序列长度,构建多个故障相关序列和非故障相关序列;计算所有故障相关序列之间的序列似然度,将序列似然度小于预设值的故障相关序列对划分为一组,得到聚类后的故障相关序列;基于隐半马尔可夫HSMM模型的参数和所述聚类后的故障相关序列进行训练,得到对应的故障分类模型。2.根据权利要求1所述的方法,其特征在于,所述获取待处理的第一日志文件,对所述待处理的第一日志文件进行格式转换,得到第二日志文件,包括:获取待处理的第一日志文件,并确定各个所述待处理的第一日志文件的时间戳;按照时间戳顺序排列所述待处理的第一日志文件,得到大日志文件;针对所述大日志文件中记录有错误日志数据的日志记录进行错误日志数据筛选,删除重复的错误日志数据,得到筛选数据之后的大日志文件;转换所述筛选数据之后的大日志文件的时间戳为世界标准时间UTC格式,得到第二日志文件。3.根据权利要求1所述的方法,其特征在于,所述确定所述第二日志文件中的错误日志数据,为同类型的错误事件导致的错误日志数据分配相同的错误标记,得到第三日志文件,包括:确定所述第二日志文件中的错误日志数据;删除所述错误日志数据中的无效信息,得到待处理的错误日志数据,所述无效信息包括与确认导致所述错误日志数据的错误事件的类型不相关的信息;计算所述第二日志文件中所有日志数据两两之间的编辑距离,选取每一对错误日志数据之间的编辑距离;判断每一对错误日志数据之间的编辑距离是否处于预设距离范围内;若存在编辑距离处于预设距离范围内的错误日志数据对,为所述错误日志数据对分配相同的错误标记,直至所有的错误日志数据对分配完毕,得到第三日志文件。4.根据权利要求1所述的方法,其特征在于,所述提取所述第三日志文件中的日志数据,并基于具有不同错误标记的所有错误日志数据的时间戳和预设序列长度,构建多个故障相关序列和非故障相关序列,包括:确认所述第三日志文件中具有不同错误标记的错误日志数据的位置;针对每一段具有不同错误标记的错误日志数据,进行数据序列提取,得到多个故障相关序列和非故障相关序列;所述数据序列提取的过程包括:基于所述错误日志数据的时间戳和数据窗口提取第一故障相关数据序列;以所述第一故障相关数据序列为基准,基于所述数据窗口和时间提前量提取第二故障2CN114676105A权利要求书2/3页相关数据序列;基于所述第一故障相关数据序列和所述第二故障相关数据序列构建故障相关序列;以所述第一故障相关数据序列为基准,基于非失效序列的裕度提取日志数据构建非故障相关序列。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:根据所述故障分类模型和所述非故障相关序列构建训练集,并进行故障训练,得到故障预测模型;基于所述故障预测模型进行故障预测。6.一种日志数据预处理装置,其特征在于,所述装置包