预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115953617A(43)申请公布日2023.04.11(21)申请号202211555848.1G06N7/01(2023.01)(22)申请日2022.12.06G06N3/045(2023.01)G06N3/048(2023.01)(71)申请人燕山大学G06N3/096(2023.01)地址066004河北省秦皇岛市海港区河北大街438号(72)发明人宫继兵彭吉全林宇庭赵金烨丛方鹏(74)专利代理机构石家庄众志华清知识产权事务所(特殊普通合伙)13123专利代理师赵洪娥(51)Int.Cl.G06V10/764(2022.01)G06V10/26(2022.01)G06V10/80(2022.01)G06V10/82(2022.01)权利要求书2页说明书4页附图1页(54)发明名称一种基于概率图和ViT模型的图片分类方法(57)摘要本发明涉及一种基于概率图和ViT模型的图片分类方法,属于计算机视觉图片分类技术领域,将多头注意力机制从概率论的角度进行建模,将多头注意力中的attentionvalue看作隐变量,利用概率图模型的Explaining‑awayEffects以及Transformer的层级结构,将attentionlogits层层传递,并将相邻层的值进行融合,促进不同头部之间的交互。本发明针对普通VisionTransformer模型中多头注意力机制头部参数的冗余问题,将多头注意力机制建模为概率图模型,将注意力值看作隐变量,促进不同注意力头部之间的交互。CN115953617ACN115953617A权利要求书1/2页1.一种基于概率图和ViT模型的图片分类方法,其特征在于,包括以下步骤:S1、将输入模型的图片进行分块,然后将每个图片块展平成一维向量,最后通过线性变换生成patchembedding;S2、给每个patchembedding加上位置编码,补充位置信息;S3、增加一个用于分类的Token,学习其他图片patch的整体信息;S4、基于头部交互的TransformerBlock,把attentionvalues看作隐变量,利用概率图模型中的Explaining‑awayEffects以及Transformer的层级结构,将attentionlogits层层传递,并将相邻层的值进行融合,促进不同头部之间的交互;S5、使用两层全连接层,将分类Token输入分类层,得到图片的分类结果。2.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法,其特征在于,所述S1的具体步骤为:S11、将输入模型的图片进行分块、展平,具体操作为:将图片patch的长宽均设置为P,即将图片数据H*W*C变换为其中,N为一张图分割的patch数量,C为通道数,H为图片高度,W为图片宽度;S12、将patch向量线性变换为patchembedding:patch_embedding=nn.Linear(patch_dim,dim)其中,patch_dim为patch向量的维度,dim为patchembedding的维度。3.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法,其特征在于,所述S2的具体操作为:pos_embedding=nn.Parameter(torch.randn(1,num_patches+1,dim))其中,pos_embedding为patch的位置编码,num_patches为patch的数量。4.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法,其特征在于,所述S3的具体操作为:添加一个专门用于分类的可学习编码,与输入进行拼接,具体为:cls_token=nn.Parameter(torch.randn(1,1,dim))其中,cls_token为分类Token,然后与其他patchtoken进行拼接。5.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法,其特征在于,所述S4的具体步骤为:S41、attentionhead序列建模,将attentionvalue看作隐变量,p(Y∣X)=∫Ap(Y∣A,X)p(A∣X)ΔdA其中,Y为图片label,X为输入照片,A为中间层Attentionvalues,p(A∣X)是联合先验分布;S42、Transformer层次化建模,利用transformer的层级结构,将此过程可表示为:2CN115953617A权利要求书2/2页其中,Aj表示第j层的attention分布,Aj的计算需要依赖Aj‑1的递归结构,具体来讲,Aj的计算通式如下:S43、相邻层的attention融合,在Transformer的层级Block的多头注意力计算模块添加MLP,将