预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114254767A(43)申请公布日2022.03.29(21)申请号202111582505.X(22)申请日2021.12.22(71)申请人武汉理工大学地址430070湖北省武汉市洪山区珞狮路122号(72)发明人张华军占宇苏义鑫张丹红(74)专利代理机构武汉智嘉联合知识产权代理事务所(普通合伙)42231代理人姜婷(51)Int.Cl.G06N20/20(2019.01)G06K9/62(2022.01)权利要求书3页说明书9页附图4页(54)发明名称基于Stacking集成学习的气象水文特征预测方法及系统(57)摘要一种基于Stacking集成学习的气象水文特征预测方法,包括:S1、获取海上气象水文特征原始数据集,划分为训练集和预测集;S2、对原始数据集中的数据特征进行相关性分析和数据集预处理;S3、选取既定个与目标特征相关系数较大的特征并进行归一化处理;S4、对所选特征向量进行降维去噪,生成新的特征向量;S5、搭建第一层机器学习器模型;S6、将每个基学习器的5个样本预测值纵向叠加得到新的特征,第一层学习器得到新特征依次为A1、A2、A3、A4,再将新特征与原始特征合并作为第二层模型的数据集;S7、建立第二层机器学习器模型,对目标特征进行预测并输出结果。CN114254767ACN114254767A权利要求书1/3页1.一种基于Stacking集成学习的气象水文特征预测方法,其特征在于,包括如下步骤:S1、获取海上气象水文特征原始数据集,将原始数据集中的数据划分为训练集和预测集;S2、对原始数据集中的数据特征进行相关性分析和数据集预处理;S3、选取既定个与目标特征相关系数较大的特征并进行归一化处理,将原始特征数据线性化转换到[0,1]范围内;S4、运用PCA主成分分析法对所选特征向量进行降维去噪,降维至预定维数生成新的特征向量;S5、搭建第一层机器学习器模型,该第一层机器学习器模型包括四个并列且不同的基学习器:SVR、随机森林、Lasso回归、ElasticNet回归;S6、第一层采用5折交叉验证训练,将训练集分成5等份样本,依次将其中1份样本作为预测集,其余4份作为基学习器的训练集进行训练,训练完成后对预测集样本进行预测;将每个基学习器的5个样本预测值纵向叠加得到新的特征,第一层学习器得到新特征依次为A1、A2、A3、A4,再将新特征与原始特征合并作为第二层模型的数据集;S7、通过Adaboost算法建立第二层机器学习器模型,通过第二层机器学习器模型对目标特征进行预测并输出结果。2.如权利要求1所述的基于Stacking集成学习的气象水文特征预测方法,其特征在于,所述步骤S1中原始数据集中的数据70%作为训练集,剩余30%作为预测集。3.如权利要求1所述的基于Stacking集成学习的气象水文特征预测方法,其特征在于,所述步骤S2中对原始数据集中的数据特征进行相关性分析和数据集预处理包括:通过相关性系数X,Y依次选取为原始数据集中各气象水文特征,计算比较原始数据集中的数据两两特征的相关性,若|ρ|<0.3则特征之间不存在线性关系,0.3<|ρ|<0.5则为低度线性关系,0.5<|ρ|<0.8为显著线性关系,|ρ|>0.8为高度线性关系,通过生成皮尔逊相关性热力图查看各个气象水文特征与输出特征的相关系数以及特征之间的相关程度。4.如权利要求3所述的基于Stacking集成学习的气象水文特征预测方法,其特征在于,所述步骤S3包括:选取既定个与目标特征相关系数绝对值大于0.3的特征并进行归一化处理,将原始特征数据线性化转换到[01]范围内,归一化公式为:X依次选取原始数据集中各气象水文特征,Xnorm为该特征归一化后的数据,Xmax、Xmin分别为该特征原始数据集中的最大值、最小值。5.如权利要求4所述的基于Stacking集成学习的气象水文特征预测方法,其特征在于,所述步骤S5中:在初始SVR模型中,由给定训练样本D={(x1,y1),(x2,y2),…,(xN,yN)},x为步骤S4得到的特征向量,y为目标特征,下标表示数据序号,期望学习到一个f(x),使得f(x)的值与y之间的差值小于预设值,模型函数为f(x)=ωx+b,ω、b均为待定的参数;f(x)与y之间允许的2CN114254767A权利要求书2/3页偏差最多为ε,于是当且仅当f(x)与y的差的绝对值大于ε时,才考虑其中的损失,因而将初始SVR模型调整为最终SVR数学模型:式中i表示数据序号,lε为损失函数,损失函数值的大小为:其中z=f(xi‑yi),得到ω、b的最佳参数值,通过最终SVR数学模型得到预测结果;在随机森林回归模型中,从步骤S4得到的特征向量数据集中的训练集中随