预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113807447A(43)申请公布日2021.12.17(21)申请号202111113882.9G06F16/2458(2019.01)(22)申请日2021.09.23G06Q10/04(2012.01)(71)申请人兰州理工大学地址730050甘肃省兰州市七里河区兰工坪路287号(72)发明人张红程传祺马彦宏陈林龙江昆张文悦(74)专利代理机构北京盛凡佳华专利代理事务所(普通合伙)11947代理人吴佳佳(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)G06F40/289(2020.01)权利要求书3页说明书8页附图4页(54)发明名称一种基于FC-SAE的多源异构数据融合方法(57)摘要本发明公开了一种基于FC‑SAE的多源异构数据融合方法,包括FC‑SAE数据融合模型,所述的FC‑SAE数据融合模型包括文本特征提取模块、时间序列建模模块以及异构数据特征融合模块,所述的文本特征提取模块包括GloVe词嵌入模型和卷积神经网络,所述的时间序列建模模块使用多层全连接神经网络进行建模,所述的异构数据特征融合模块包括稀疏自动编码器。本发明优点在于:本申请在对时间序列数据进行去趋势的基础上,采用FC对时间序列进行建模,减小在某些时间序列预测问题上的误差,通过深度稀疏自动编码器作为融合模型,在保留最大信息量的同时充分挖掘时间序列数据与文本数据之间的关联关系,充分利用多源异构数据隐藏的各种信息,提高信息利用率。CN113807447ACN113807447A权利要求书1/3页1.一种基于FC‑SAE的多源异构数据融合方法,包括FC‑SAE数据融合模型,其特征在于:所述的FC‑SAE数据融合模型包括文本特征提取模块、时间序列建模模块以及异构数据特征融合模块,所述的文本特征提取模块包括GloVe词嵌入模型和卷积神经网络,所述的时间序列建模模块使用多层全连接神经网络进行建模,所述的异构数据特征融合模块包括稀疏自动编码器,所述的融合方法步骤如下:Step1:对文本数据预处理,删除HTML标签和停用词,并进行大小写转换;Step2:使用Tokenizer分词器对文本进行分词,生成不定长文本序列V,对不定长文本n×S序列进行零填充V,使其成为等长文本向量VT(VT=R,n为文本数据样本量,S为最大文本向量长度);Step3:使用GloVe词嵌入模型对文本向量VT进行词嵌入,生成词向量矩阵X[i:j](i为词嵌入矩阵维度);Step4:卷积神经网络进一步提取词向量矩阵X[i:j]特征,获得文本数据特征Ztext;Step5:时间序列数据预处理,并根据事件描述数据生成事件存在数据;Step6:采用历史平均法对时间序列数据进行去趋势,生成去趋势数据如下式所示;Step7:多层全连接网络提取时间序列特征Zts;Step8:将文本数据特征Ztext和时间序列特征Zts进行拼接,并通过稀疏自动编码器进行融合,输出多源异构数据特征y。2.根据权利要求1所述的一种基于FC‑SAE的多源异构数据融合方法,其特征在于:所述的文本向量模型VT由文本中相对应的词组及其出现频率组成,即VT=((w1,m1),(w2,m2),…,(wn,mn))。3.根据权利要求1所述的一种基于FC‑SAE的多源异构数据融合方法,其特征在于:所述的GloVe词嵌入模型是利用词向量vi、vj和构造函数所述的GloVe词嵌入模型损失函数见下式:其中,N为语料库中词数量,共现矩阵X为N×N矩阵;Xij表示词i和词j在同一个窗口内出现的次数;表示以词i作为上下文单词时,词i所对应词向量的转置;表示以词j作为上下文的中心词时,词j所对应词向量;bi和bj为偏置项;f为自定义权重函数。所述的权重函数常用形式为:2CN113807447A权利要求书2/3页通常,xmax=100,α=0.75,通过最小化损失函数获得词向量模型与词向量。4.根据权利要求1所述的一种基于FC‑SAE的多源异构数据融合方法,其特征在于:所述的词向量矩阵X[i:j]通过卷积层进行卷积运算获得特征映射C,并通过最大池化层获得特征映射中的最大值所述的获得文本数据特征Ztext过程如下所示:Ci=f(wX[i:j]+b)C=[C1,C2,…,Cn]其中,n为特征映射数量,m为卷积核个数。5.根据权利要求1所述的一种基于FC‑SAE的多源异构数据融合方法,其特征在于:所述的多层全连接网络由输入层、隐藏层和输出层三层组成,所述的多层全连接网络的计算步骤如下:首先计算输入的加权和,如下式所示:其中,Wab表示为输入层中第a个节点到隐藏层第b个节点的连接权重,θb为第b个隐藏节点的偏置项,X