预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113869205A(43)申请公布日2021.12.31(21)申请号202111138313.X(22)申请日2021.09.27(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人叶锦谭啸孙昊(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人罗岚(51)Int.Cl.G06K9/00(2006.01)G06K9/32(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书11页附图4页(54)发明名称对象检测方法、装置、电子设备和存储介质(57)摘要本公开提供了一种对象检测方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,具体可用于智慧城市和智能交通场景下。方案为:针对待检测视频中的目标视频帧,采用编码器对目标视频帧进行编码,得到第一编码特征;获取设定的第一解码特征,或根据解码器对目标视频帧的前一帧视频帧进行解码得到的特征确定第一解码特征;采用解码器对第一编码特征和第一解码特征进行解码,得到第二解码特征;采用全连接层根据第二解码特征进行对象预测,以得到目标视频帧的标注结果,标注结果包括目标对象的检测框和检测框中目标对象的类别。由此,基于深度学习技术识别得到待检测视频中的各个对象,可以提升检测结果的准确性。CN113869205ACN113869205A权利要求书1/3页1.一种对象检测方法,所述方法包括以下步骤:获取待检测视频;针对所述待检测视频中的目标视频帧,采用对象检测模型中的编码器对所述目标视频帧进行编码,得到第一编码特征;获取设定的第一解码特征,或者根据所述对象检测模型中的解码器对所述目标视频帧的前一帧视频帧进行解码得到的特征,确定所述第一解码特征;采用所述解码器对所述第一编码特征和所述第一解码特征进行解码,以得到第二解码特征;采用所述对象检测模型中的全连接层根据所述第二解码特征进行对象预测,以得到所述目标视频帧的标注结果,其中,所述标注结果包括目标对象的检测框和所述检测框中所述目标对象的类别。2.根据权利要求1所述的方法,其中,所述采用所述解码器对所述第一编码特征和所述第一解码特征进行解码,以得到第二解码特征,包括:将所述第一编码特征分别输入至所述解码器中的第一全连接层和第二全连接层;将所述第一全连接层输出的特征向量作为第一注意力参数,将所述第二全连接层输出的特征向量作为第二注意力参数;根据所述第一解码特征,确定第三注意力参数;根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数,确定目标视频帧对应的第二解码特征。3.根据权利要求2所述的方法,其中,所述根据所述第一注意力参数、所述第二注意力参数和所述第三注意力参数,确定目标视频帧对应的第二解码特征,包括:将所述第三注意力参数与所述第一注意力参数内积后进行归一化,得到注意力权值;根据所述注意力权值对所述第二注意力参数进行加权,以得到所述目标视频帧对应的第二解码特征。4.根据权利要求2所述的方法,其中,所述根据所述第一解码特征,确定第三注意力参数,包括:将所述第一解码特征,作为所述目标视频帧对应的第三注意力参数。5.根据权利要求2所述的方法,其中,所述根据所述第一解码特征,确定第三注意力参数,包括:获取所述目标视频帧的前一帧视频帧对应的第三注意力参数;将所述第一解码特征,与所述前一帧视频帧对应的第三注意力参数进行加权处理,以得到所述目标视频帧对应的第三注意力参数。6.根据权利要求1‑5任一项所述的方法,其中,所述针对所述待检测视频中的目标视频帧,采用对象检测模型中的编码器对所述目标视频帧进行编码,得到第一编码特征,包括:对所述目标视频帧进行特征提取,得到第一图像特征;将所述第一图像特征进行分块处理,以得到序列化的特征向量;利用所述编码器对所述序列化的特征向量进行编码,以得到所述第一编码特征。7.一种对象检测装置,所述装置包括:第一获取模块,用于获取待检测视频;2CN113869205A权利要求书2/3页编码模块,用于针对所述待检测视频中的目标视频帧,采用对象检测模型中的编码器对所述目标视频帧进行编码,得到第一编码特征;第二获取模块,用于获取设定的第一解码特征,或者根据所述对象检测模型中的解码器对所述目标视频帧的前一帧视频帧进行解码得到的特征,确定所述第一解码特征;解码模块,用于采用所述解码器对所述第一编码特征和所述第一解码特征进行解码,以得到第二解码特征;预测模块,用于采用所述对象检测模型中的全连接层根据所述第二解码特征进行对象预测,以得到所述目标视频帧的标注结果,其中,所述标注结果