预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115062720A(43)申请公布日2022.09.16(21)申请号202210771293.8(22)申请日2022.06.30(71)申请人重庆大学地址400044重庆市沙坪坝区沙正街174号(72)发明人汤宝平包磊谷新宇李琪康刘小莉(74)专利代理机构重庆博凯知识产权代理有限公司50212专利代理师黄河(51)Int.Cl.G06K9/62(2022.01)G06F40/289(2020.01)G06F40/18(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书4页说明书14页附图3页(54)发明名称大型旋转机械多源异构数据特征提取方法及故障诊断方法(57)摘要本发明提供了一种大型旋转机械多源异构数据特征提取方法及故障诊断方法,该多源异构数据特征提取方法,针对大型旋转机械关联的文本数据、表格数据和时序数据分别采用不同的数据特征编码方式,通过对文本数据和表格数据做分句和分词处理后进行词嵌入编码,通过对时序数据做分段切割后进行自编码,使得文本数据、表格数据和时序数据都被转换为统一数据维度的编码向量形态,作为各自的特征表征向量,并且较好的保留了三者各自所携带的运行状态信息和维护价值信息,进而使得三者的编码向量能够在统一数据维度下进行进一步的拼接融合及降维编码处理,作为大型旋转机械的多源异构数据特征向量,帮助更准确的进行大型旋转机械设备的故障诊断等应用。CN115062720ACN115062720A权利要求书1/4页1.大型旋转机械多源异构数据特征提取方法,其特征在于,包括如下步骤:S1:获取大型旋转机械的多源异构数据;所述大型旋转机械的多源异构数据包括大型旋转机械关联的文本数据、表格数据和时序数据;S2:分别对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句和分词处理,得到对应的分句分词信息;S3:对文本数据的分句分词信息进行词嵌入编码,将得到的文本数据的词编码向量作为文本数据的特征表征向量;S4:对表格数据中各个单元格的分句分词信息分别进行词嵌入编码,并对得到的表格数据的各个单元格的词编码向量进行拼接融合,得到表格数据的编码向量矩阵,作为表格数据的特征表征向量;S5:对时序数据进行分段切割,对时序数据切割所得的各个时序数据段利用预先训练的自编码器分别进行编码处理后进行拼接融合,得到时序数据的编码向量,作为时序数据的特征表征向量;S6:将大型旋转机械所关联的文本数据、表格数据和时序数据的特征表征向量进行拼接融合及降维编码处理,将得到低维融合特征向量作为大型旋转机械的多源异构数据特征向量。2.根据权利要求1所述的大型旋转机械多源异构数据特征提取方法,其特征在于,所述步骤S2具体包括:S201:分别对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句处理,得到各文本信息分句的句段;S202:分别各对文本信息的各句段进行分词处理,得到各句段包含的特征词;S203:将文本数据中文本信息的各句段包含的特征词的集合作为文本数据的分句分词信息;将表格数据中每个单元格中文本信息的各句段包含的特征词的集合作为相应单元格分句分词信息。3.根据权利要求2所述的大型旋转机械多源异构数据特征提取方法,其特征在于,所述步骤S201中,对文本数据的文本信息以及表格数据中每个单元格的文本信息进行分句处理之前,还包括:对文本数据的文本信息以及表格数据中每个单元格的文本信息进行文本预处理,所述文本预处理包括对文本信息的错别字纠正处理、错误符号纠正处理、错误语法纠正处理、去停用词处理、同义词表达一致性处理中的一种或多种。4.根据权利要求2所述的大型旋转机械多源异构数据特征提取方法,其特征在于,所述步骤S3具体包括:S301:对文本数据的分句分词信息中各句段包含的每个特征词分别采用Bert模型进行词嵌入编码,得到每个特征词的1×B维的单词编码向量,B为Bert模型进行词嵌入编码的编码维度尺寸;S302:对于单个文本数据,通过concat方法将文本数据的分句分词信息中各句段所包含的特征词的单词编码向量进行拼接融合,得到文本数据的维的词编码向量,2CN115062720A权利要求书2/4页作为文本数据的特征表征向量;其中,mw表示对文本数据分句获得的句段数,nw,i表示文本数据的第i个句段包含的特征词数。5.根据权利要求2所述的大型旋转机械多源异构数据特征提取方法,其特征在于,所述步骤S4具体包括:S401:对表格数据的每个单元格的分句分词信息中各句段包含的每个特征词分别采用Bert模型进行词嵌入编码,得到每个特征词的1×B维的单词编码向量,B为Bert模型进行词嵌入编码的编码维度尺寸;S402:对于表格数据中的单个单元格,通过con