预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113963148A(43)申请公布日2022.01.21(21)申请号202111271219.1G06K9/62(2022.01)(22)申请日2021.10.29(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人王云浩张滨李超彭岩陈松薛松冯原韩树民(74)专利代理机构北京市汉坤律师事务所11602代理人姜浩然吴丽丽(51)Int.Cl.G06V10/22(2022.01)G06V10/26(2022.01)G06V10/40(2022.01)G06V10/774(2022.01)权利要求书3页说明书12页附图7页(54)发明名称对象检测方法、对象检测模型的训练方法及装置(57)摘要本公开提供了一种对象检测方法、对象检测模型的训练方法及装置,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术。实现方案为:将待测图像分割成多个图像块;基于所述多个图像块,生成所述待测图像的特征表示;采用预设的参数集对所述特征表示进行映射,以得到所述待测图像的多个特征图;以及基于所述多个特征图,确定所述待测图像中的目标对象的位置和类别。CN113963148ACN113963148A权利要求书1/3页1.一种对象检测方法,包括:将待测图像分割成多个图像块;基于所述多个图像块,生成所述待测图像的特征表示;采用预设的参数集对所述特征表示进行映射,以得到所述待测图像的多个特征图;以及基于所述多个特征图,确定所述待测图像中的目标对象的位置和类别。2.根据权利要求1所述的方法,其中,所述基于所述多个图像块,生成所述待测图像的特征表示包括:对于所述多个图像块中的每一个图像块:基于所述图像块的像素值,确定所述图像块的第一向量表示;采用预设的变换矩阵对所述第一向量表示进行变换,以生成所述图像块的第二向量表示;以及对所述多个图像块各自的第二向量表示进行组合,以得到所述待测图像的特征表示。3.根据权利要求2所述的方法,其中,所述多个图像块的尺寸相同并且互不重叠,并且其中,所述图像块的第一向量表示为该图像块的各个通道的像素值的拼接。4.一种对象检测模型的训练方法,其中,所述对象检测模型包括特征提取网络和区域生成网络,所述方法包括:获取第一样本图像和第二样本图像,其中,所述第一样本图像和所述第二样本图像包括属于目标类别的目标对象,所述第一样本图像标注有所述目标对象的真实位置和所述目标类别;将所述第一样本图像和所述第二样本图像输入所述特征提取网络,以获得所述第一样本图像的第一特征,其中,所述第一特征是基于所述第二样本图像提取的;将所述第一特征输入所述区域生成网络,以获得所述第一样本图像中的所述目标对象的预测位置和预测类别;基于所述真实位置、目标类别、预测位置和预测类别,计算所述对象检测模型的损失值;以及基于所述损失值,调整所述对象检测模型的参数。5.根据权利要求4所述的方法,其中,所述第二样本图像包括且仅包括所述目标对象。6.根据权利要求4或5所述的方法,其中,所述获取第一样本图像和第二样本图像包括:获取所述目标类别的多个样本图像,其中,每个样本图像至少包括所述目标对象;从所述多个样本图像的每个样本图像中裁剪出包括所述目标对象的局部区域,得到多个局部图像,其中,所述第一样本图像为所述多个样本图像中的任一样本图像,所述第二样本图像为所述多个局部图像中的任一局部图像。7.根据权利要求4所述的方法,其中,所述第一样本图像和所述第二样本图像分别为所述目标类别的多个样本图像中的任一样本图像。8.根据权利要求4‑7中任一项所述的方法,在所述获取第一样本图像和所述第二样本图像之前,还包括:基于基础类别的图像数据对所述对象检测模型进行预训练,其中,所述基础类别与所2CN113963148A权利要求书2/3页述目标类别不同。9.根据权利要求4‑8中任一项所述的方法,其中,所述特征提取网络包括用于提取所述第一特征的第一提取分支和用于提取所述第二样本图像的第二特征的第二提取分支,所述第一提取分支包括至少一个第一注意力模块,所述第二提取分支包括至少一个第二注意力模块,所述至少一个第一注意力模块和所述至少一个第二注意力模块一一对应,每个第一注意力模块与其对应的第二注意力模块共享参数,所述至少一个第二注意力模块中的每个第二注意力模块被配置为:对输入该第二注意力模块的第二输入数据进行处理,输出所述第二输入数据的特征值矩阵;所述至少一个第一注意力模块中的每个第一注意力模块被配置为:获取相应的第二注意力模块输出的特征值矩阵;对输入该第一注意力模块的第一输入数据进行处理,以得到所述第一输入数据的查询矩阵和键矩阵;以及基于所述查询矩阵、所述键矩阵和所述特征值矩阵,确定并输