预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115859218A(43)申请公布日2023.03.28(21)申请号202211616148.9(22)申请日2022.12.15(71)申请人烽火乾坤科技(南京)有限公司地址211100江苏省南京市江宁区天元东路1009号创业大厦3层L3300(江宁高新区)(72)发明人李海坤杨璐绮(74)专利代理机构南京司南专利代理事务所(普通合伙)32431专利代理师刘凯霞(51)Int.Cl.G06F18/25(2023.01)G06F18/214(2023.01)G06N3/08(2023.01)G06N3/0442(2023.01)权利要求书3页说明书12页附图4页(54)发明名称一种分布式多源异构数据融合应用方法(57)摘要本发明涉及一种分布式多源异构数据融合应用方法,方法包括:获取多源数据并对其进行划分,得到等分多个弹性子数据集;利用SparkShuffle并行化处理模型对LSTM长短期记忆递归神经网络算法进行改进,并将其建立在分布式ApacheSpark平台上;改进的网络融合算法对各子数据集中的样本数据处理与融合模型进行训练;对各子数据集中的样本数据进行数据融合,并输出Map任务中间数据,判定数据的类别,以此得到最终的预测值。本发明可广泛适用于大数据时代背景下各行业海量的多源异构数据的融合应用,并可有效提高海量数据融合的精度与速度,可为我国交通、金融等行业相关数据融合应用提供有力依据,对推动行业大数据分析水平发展具有重要意义。CN115859218ACN115859218A权利要求书1/3页1.一种分布式多源异构数据融合应用方法,其特征在于,包括以下步骤:S1:获取多源数据并利用“Map”映射机制对其进行划分,得到等分多个弹性子数据集,并分配至指定“Map”任务执行节点;S2:利用SparkShuffle并行化处理模型对LSTM长短期记忆递归神经网络算法进行改进,并将其建立在分布式ApacheSpark平台上;S3:改进的采用LSTM长短期记忆递归神经网络融合算法对各子数据集中的样本数据处理与融合模型进行训练;S4:基于训练后的融合算法对各子数据集中的样本数据进行数据融合,并输出Map任务中间数据,判定数据的类别;S5:通过“Reduce”机制将多个Map任务所属的子集数据进行合并融合,以此得到最终的预测值。2.根据权利要求1所述的一种分布式多源异构数据融合应用方法,其特征在于,对步骤S1中,获取所述多源数据进行划分包括:对获取到的多源数据进行离散化处理,得到离散化数据;将离散化数据进行矩阵化处理,得到与时间相关的数据矩阵。3.根据权利要求1所述一种分布式多源异构数据融合应用方法,其特征在于,对步骤S2中,LSTM长短期记忆递归神经网络算法采用3层遗忘门结构,所述LSTM长短期记忆递归神经网络算法的具体操作步骤包括:S21:设置遗忘门、输入门以及输出门的神经元个数;S22:明确训练方法、最大轮数以及初始学习率;同时,设置减少学习率的周期间隔并设置学习率减小因子;S23:LSTM长短期记忆递归神经网络引入记忆结构,在每个时间步下,结合上一节点的输出值,通过门结构对细胞状态的信息进行添加或删除。4.根据权利要求3所述一种分布式多源异构数据融合应用方法,其特征在于,所述LSTM长短期记忆递归神经网络算法的基本单元,包括:遗忘门:输入门:输出门:记忆单元结构:yt=σ(Wh<t>)其中,sigmoid激励函数具体公式为:2CN115859218A权利要求书2/3页tanh非线性函数为:式中:Wf、Wi、Wo与bf、bi、bo为通过该LSTM层的网络结构参数,即在训练中通过损失函数反馈后进行调整的参数,为遗忘门控,控制上一状态的c<t‑1>具体的遗忘部分,为输入门控,控制对于输入x<t>的记忆,为输出门控,控制当前状态的输出,通过sigmoid激励函数转化成为0到1之间的数值,将c<t>结果通过非线性函数tanh转化为‑1到1之间的值。5.根据权利要求1所述一种分布式多源异构数据融合应用方法,其特征在于,所述对子数据的处理还包括,将经过模型处理的各子数据集的结果进行识别并输出类型,得到不同类型的对象结果。6.根据权利要求1所述一种分布式多源异构数据融合应用方法,其特征在于,对于步骤S3中对所述模型进行训练还包括以下步骤:S31:初始化网络,赋予网络初始值;S32:输入样本数据,求解获得隐含层输出值;进而求解得到输出层输出值;S33:采用网络处理误差函数,计算输出层输出值偏差,判别是否满足期望偏差;S34:若输出值偏差满足期望偏差,则结束训练;若不满足,则需调整算法隐含层与输出层之间的网络权值,并重新返回求解获得输出层输出值,直至满足期望偏差。7.根据权利要求1所述一种