预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115937567A(43)申请公布日2023.04.07(21)申请号202211089518.8(22)申请日2022.09.07(71)申请人北京交通大学地址100044北京市海淀区西直门外上园村3号(72)发明人廉巧芳白移梦(74)专利代理机构北京市商泰律师事务所11255专利代理师黄晓军(51)Int.Cl.G06V10/764(2022.01)G06V10/82(2022.01)G06N3/0464(2023.01)G06N3/08(2023.01)权利要求书2页说明书11页附图4页(54)发明名称一种基于小波散射网络和ViT的图像分类方法(57)摘要本发明提供了一种基于小波散射网络和ViT的图像分类方法。该方法包括:对图像数据进行预处理,获取带标签的预处理后的图像数据;构建基于小波散射网络和ViT的分类模型ScatViT,设定模型参数;设定训练参数,利用预处理后的图像数据训练分类模型ScatViT;利用训练好的分类模型ScatViT对待分类图像进行分类处理。本发明结合小波散射网络和ViT两个模型,提出了将图像切块操作改为使用小波散射网络提取图像特征的ScatViT模型,该模型改进了小波散射网络由于滤波器权重固定导致的无法从数据中学习的缺陷,修复了由于切块操作所丢失的部分信息,并排除了与图像分类无关信息的干扰,能更准确地表达图像的特征信息。CN115937567ACN115937567A权利要求书1/2页1.一种基于小波散射网络和ViT的图像分类方法,其特征在于,包括:对图像数据进行预处理,获取带标签的预处理后的图像数据;构建基于小波散射网络和ViT的分类模型ScatViT,设定模型参数;设定训练参数,利用预处理后的图像数据训练分类模型ScatViT,得到训练好的分类模型ScatViT;利用训练好的分类模型ScatViT对待分类图像进行分类处理。2.根据权利要求1所述的方法,其特征在于,所述的对图像数据进行预处理,获取带标签的预处理后的图像数据,包括:对图像数据集进行划分,将图像数据集按19:1的比例均匀分为训练集和验证集,验证集中的每个类别的图片数量相同,将每一张图片按通道维度进行归一化处理,所述数据集包括cifar‑10数据集和cifar‑100数据集。3.根据权利要求1所述的方法,其特征在于,所述的构建基于小波散射网络和ViT的分类模型ScatViT,设定模型参数,包括:将ViT的PatchEmbedding模块替换为小波散射网络ScatNet,使用小波散射网络提取图像特征,利用改进后的小波散射网络和ViT构建分类模型ScatViT,其由ScatEmbedding、Encoder和MLPHead三部分组成,设定模型所涉及的参数包括:小波散射角度参数L=6,尺度参数J=2,最大路径长度M=2,嵌入层维度大小D=768,Encoder的深度S=12,Multi‑HeadAttention中的head数量H=12。4.根据权利要求3所述的方法,其特征在于,所述的ScatEmbedding通过小波散射网络将待分类的二维图像数据转化为特征图序列,通过线性映射将特征图序列投影到高维空间,添加一个分类标志向量,以用于最终输出概率分布,添加一个可学习的位置编码矩阵,以用于附加位置信息;Encoder由Multi‑HeadAttention与MLPBlock构成,每个子层内部均使用ResidualConnection,同时每个子层末端使用LayerNormalization,将Multi‑HeadAttention的操作记为MSA,MLPBlock的操作记为MLP。Multi‑HeadAttention是指将参数映射到不同子空间,分别进行注意力计算,最终将各个结果进行拼接;MLPHead将提取的分类标志向量通过线性变换与激活函数的组合,得到待输出的类别概率分布。5.根据权利要求3或者4所述的方法,其特征在于,所述的设定训练参数,利用预处理后的图像数据训练分类模型ScatViT,得到训练好的分类模型ScatViT,包括:步骤3.1,对已构建好的分类模型ScatViT中的网络参数进行初始化,输入训练数据集;步骤3.2,使用小波散射网络作为图像特征提取器,通过ScatEmbedding中的小波散射网络提取多尺度、多方向的图像特征;步骤3.3,在小波散射网络所提取的图像特征的基础上,将图像特征展平并投影到更高的维度,之后在图像特征中添加类别标记向量与可学习的位置编码矩阵,将改进后的图像特征输入到Encoder中来学习距离依赖关系;步骤3.4,将Encoder的输出进行层标准化LayerNormalization后提取所添加的类别标记向量,将类别标记向量通过多层感知机MLP