预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114463553A(43)申请公布日2022.05.10(21)申请号202210123569.1(22)申请日2022.02.09(71)申请人北京地平线信息技术有限公司地址100094北京市海淀区丰豪东路9号院2号楼3层1单元301(72)发明人何泳澔隋伟任伟强张骞(74)专利代理机构北京思源智汇知识产权代理有限公司11657专利代理师李洪娟(51)Int.Cl.G06V10/42(2022.01)G06V10/764(2022.01)G06K9/62(2022.01)权利要求书2页说明书13页附图10页(54)发明名称图像处理方法和装置、电子设备和存储介质(57)摘要本公开实施例公开了一种图像处理方法和装置、电子设备和存储介质,其中,方法包括:获取待处理图像对应的查询张量、键张量和值张量;基于查询张量和键张量,分别按行和按列进行注意力操作,获得各行分别对应的行输出权重和各列分别对应的列输出权重;基于各行分别对应的行输出权重、各列分别对应的列输出权重及值张量,获得第一输出张量;基于第一输出张量,确定待处理图像对应的图像处理结果。本公开实施例实现了将图像的每个位置的像素形成token,无需对图像进行patch,从而可以有效保留图像的细节信息,且能够有效减小注意力操作的计算量,解决现有技术基于patch方式容易导致图像细节丢失等问题。CN114463553ACN114463553A权利要求书1/2页1.一种图像处理方法,包括:获取待处理图像对应的查询张量、键张量和值张量;基于所述查询张量和所述键张量,分别按行和按列进行注意力操作,获得各所述行分别对应的行输出权重和各所述列分别对应的列输出权重;基于各所述行分别对应的所述行输出权重、各所述列分别对应的所述列输出权重及所述值张量,获得第一输出张量;基于所述第一输出张量,确定所述待处理图像对应的图像处理结果。2.根据权利要求1所述的方法,其中,所述查询张量和所述键张量的尺寸均为H*W*C;H、W、C分别表示张量的高度、宽度和通道数量;所述基于所述查询张量和所述键张量,分别按行和按列进行注意力操作,获得各所述行分别对应的行输出权重和各所述列分别对应的列输出权重,包括:基于所述查询张量的第i行和所述键张量的第i行,进行注意力操作,获得所述第i行对应的所述行输出权重;i=1,2,…,H;基于所述查询张量的第j列和所述键张量的第j列,进行注意力操作,获得所述第j列对应的所述列输出权重;j=1,2,…,W。3.根据权利要求2所述的方法,其中,所述基于所述查询张量的第i行和所述键张量的第i行,进行注意力操作,获得所述第i行对应的所述行输出权重,包括:将所述查询张量的第i行与所述键张量的第i行的转置相乘,获得第一行结果;基于所述第一行结果及所述查询张量的通道数量,获得第二行结果;对所述第二行结果进行softmax运算,获得所述第i行对应的所述行输出权重;所述基于所述查询张量的第j列和所述键张量的第j列,进行注意力操作,获得所述第j列对应的所述列输出权重,包括:将所述查询张量的第j列与所述键张量的第j列的转置相乘,获得第一列结果;基于所述第一列结果及所述查询张量的通道数量,获得第二列结果;对所述第二列结果进行softmax运算,获得所述第j列对应的所述列输出权重。4.根据权利要求1所述的方法,其中,所述基于各所述行分别对应的所述行输出权重、各所述列分别对应的所述列输出权重及所述值张量,获得第一输出张量,包括:基于各所述行分别对应的所述行输出权重对所述值张量的对应行进行加权运算,获得各所述行分别对应的行输出结果,基于各所述行分别对应的所述行输出结果,获得所述行输出张量;基于各所述列分别对应的所述列输出权重对所述值张量的对应列进行加权运算,获得各所述列分别对应的列输出结果,基于各所述列分别对应的所述列输出结果,获得所述列输出张量;将所述行输出张量和所述列输出张量按元素相加,获得所述第一输出张量。5.根据权利要求1‑4任一所述的方法,其中,所述获取待处理图像对应的查询张量、键张量和值张量,包括:对所述待处理图像进行特征嵌入操作,获得对应的第一张量;将所述第一张量与对应的空间位置编码张量相加,获得第二张量;对所述第二张量进行归一化,获得第三张量;2CN114463553A权利要求书2/2页基于所述第三张量及第一映射规则确定所述查询张量;基于所述第三张量及第二映射规则确定所述键张量;基于所述第三张量及第三映射规则确定所述值张量。6.根据权利要求5所述的方法,其中,所述基于所述第一输出张量,确定所述待处理图像对应的图像处理结果,包括:将所述第一输出张量与所述第二张量相加获得第四张量;对所述第四张量进行归一化,获得第五张量;将所述第五张量输入多层感