一种基于概率图和ViT模型的图片分类方法-豆柴文库

一种基于概率图和ViT模型的图片分类方法.pdf

2023-06-02

10金币

454KB

8页

白真****ng

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115953617A(43)申请公布日2023.04.11(21)申请号202211555848.1G06N7/01(2023.01)(22)申请日2022.12.06G06N3/045(2023.01)G06N3/048(2023.01)(71)申请人燕山大学G06N3/096(2023.01)地址066004河北省秦皇岛市海港区河北大街438号(72)发明人宫继兵彭吉全林宇庭赵金烨丛方鹏(74)专利代理机构石家庄众志华清知识产权事务所(特殊普通合伙)13123专利代理师赵洪娥(51)Int.Cl.G06V10/764(2022.01)G06V10/26(2022.01)G06V10/80(2022.01)G06V10/82(2022.01)权利要求书2页说明书4页附图1页(54)发明名称一种基于概率图和ViT模型的图片分类方法(57)摘要本发明涉及一种基于概率图和ViT模型的图片分类方法，属于计算机视觉图片分类技术领域，将多头注意力机制从概率论的角度进行建模，将多头注意力中的attentionvalue看作隐变量，利用概率图模型的Explaining‑awayEffects以及Transformer的层级结构，将attentionlogits层层传递，并将相邻层的值进行融合，促进不同头部之间的交互。本发明针对普通VisionTransformer模型中多头注意力机制头部参数的冗余问题，将多头注意力机制建模为概率图模型，将注意力值看作隐变量，促进不同注意力头部之间的交互。CN115953617ACN115953617A权利要求书1/2页1.一种基于概率图和ViT模型的图片分类方法，其特征在于，包括以下步骤：S1、将输入模型的图片进行分块，然后将每个图片块展平成一维向量，最后通过线性变换生成patchembedding；S2、给每个patchembedding加上位置编码，补充位置信息；S3、增加一个用于分类的Token，学习其他图片patch的整体信息；S4、基于头部交互的TransformerBlock，把attentionvalues看作隐变量，利用概率图模型中的Explaining‑awayEffects以及Transformer的层级结构，将attentionlogits层层传递，并将相邻层的值进行融合，促进不同头部之间的交互；S5、使用两层全连接层，将分类Token输入分类层，得到图片的分类结果。2.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法，其特征在于，所述S1的具体步骤为：S11、将输入模型的图片进行分块、展平，具体操作为：将图片patch的长宽均设置为P，即将图片数据H*W*C变换为其中，N为一张图分割的patch数量，C为通道数，H为图片高度，W为图片宽度；S12、将patch向量线性变换为patchembedding：patch_embedding＝nn.Linear(patch_dim,dim)其中，patch_dim为patch向量的维度，dim为patchembedding的维度。3.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法，其特征在于，所述S2的具体操作为：pos_embedding＝nn.Parameter(torch.randn(1,num_patches+1,dim))其中，pos_embedding为patch的位置编码，num_patches为patch的数量。4.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法，其特征在于，所述S3的具体操作为：添加一个专门用于分类的可学习编码，与输入进行拼接，具体为：cls_token＝nn.Parameter(torch.randn(1,1,dim))其中，cls_token为分类Token，然后与其他patchtoken进行拼接。5.根据权利要求1所述的一种基于概率图和ViT模型的图片分类方法，其特征在于，所述S4的具体步骤为：S41、attentionhead序列建模，将attentionvalue看作隐变量，p(Y∣X)＝∫Ap(Y∣A,X)p(A∣X)ΔdA其中，Y为图片label，X为输入照片，A为中间层Attentionvalues，p(A∣X)是联合先验分布；S42、Transformer层次化建模，利用transformer的层级结构，将此过程可表示为：2CN115953617A权利要求书2/2页其中，Aj表示第j层的attention分布，Aj的计算需要依赖Aj‑1的递归结构，具体来讲，Aj的计算通式如下：S43、相邻层的attention融合，在Transformer的层级Block的多头注意力计算模块添加MLP，将

相关资料

一种基于概率图和ViT模型的图片分类方法.pdf

本发明涉及一种基于概率图和ViT模型的图片分类方法，属于计算机视觉图片分类技术领域，将多头注意力机制从概率论的角度进行建模，将多头注意力中的attentionvalue看作隐变量，利用概率图模型的Explaining‑awayEffects以及Transformer的层级结构，将attentionlogits层层传递，并将相邻层的值进行融合，促进不同头部之间的交互。本发明针对普通VisionTransformer模型中多头注意力机制头部参数的冗余问题，将多头注意力机制建模为概率图模型，将注意力值看

2023-06-02

454KB

一种基于小波散射网络和ViT的图像分类方法.pdf

本发明提供了一种基于小波散射网络和ViT的图像分类方法。该方法包括：对图像数据进行预处理，获取带标签的预处理后的图像数据；构建基于小波散射网络和ViT的分类模型ScatViT，设定模型参数；设定训练参数，利用预处理后的图像数据训练分类模型ScatViT；利用训练好的分类模型ScatViT对待分类图像进行分类处理。本发明结合小波散射网络和ViT两个模型，提出了将图像切块操作改为使用小波散射网络提取图像特征的ScatViT模型，该模型改进了小波散射网络由于滤波器权重固定导致的无法从数据中学习的缺陷，修复了由于

2023-06-03

1KB

一种基于深度学习和概率图模型的本征分解方法的研究.docx

一种基于深度学习和概率图模型的本征分解方法的研究一种基于深度学习和概率图模型的本征分解方法的研究摘要：本文提出了一种基于深度学习和概率图模型的本征分解方法，利用深度学习模型提取数据的抽象特征表示，然后结合概率图模型对特征进行建模和分析，从而实现对数据的本征分解。通过实验验证，在不同的数据集上，所提出的方法能够有效地进行本征分解，并得到更好的结果。该方法具有一定的泛化能力，并可以应用于多种不同的领域。关键词：深度学习、概率图模型、本征分解1.引言本征分解是一种常用的数据分析方法，可以用于对数据进行降维、去噪

2024-10-16

11KB

一种基于3因素概率图模型的长尾推荐方法.pptx

基于3因素概率图模型的长尾推荐方法目录添加章节标题方法概述3因素概率图模型定义长尾推荐方法的原理方法的适用场景方法优缺点分析3因素概率图模型构建用户画像构建物品特征提取用户与物品的关联关系建立概率图模型参数学习长尾推荐算法实现冷启动问题处理用户兴趣建模物品相似度计算推荐列表生成与排序实验验证与结果分析数据集选择与预处理实验设置与对比方法推荐效果评估指标实验结果分析结果对比与讨论应用案例与效果展示应用场景描述实际应用效果展示用户反馈与案例分析方法改进与优化建议总结与展望方法总结研究贡献与限制未来研究方向TH

2024-10-02

2.4MB

一种基于图压缩的深度图分类模型防御方法.pdf

本发明涉及图科学技术领域，具体公开一种基于图压缩的深度图分类模型防御方法，包括以下步骤：(1)设计深度图分类模型，对干净样本与对抗样本的连边求梯度得到所有连边权重系数；(2计算干净/对抗样本的梯度‑传统连边重要性相似度；(3)选择传统连边重要性指标与对抗样本中的连边进行排序，提取对抗样本中的关键连边；(4)根据提取到的关键连边进行图压缩，并将压缩后的图样本重新输入深度图分类模型，输出压缩后的图分类准确率，实现深度图分类模型的防御过程。本发明利用图压缩方法保留图原始关键连边并滤除对抗扰动连边与非关键连边，实

2023-11-07

822KB