预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115546810A(43)申请公布日2022.12.30(21)申请号202211507954.2(22)申请日2022.11.29(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人王维强顾章轩王可孟昌华兰钧(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309专利代理师张明周良玉(51)Int.Cl.G06V30/412(2022.01)G06V30/414(2022.01)权利要求书4页说明书10页附图3页(54)发明名称图像元素类别的识别方法及装置(57)摘要本说明书实施例提供一种图像元素类别的识别方法及装置,在识别方法中,从多模态的目标图像中,提取其中包含的多个文本片段,及其对应的多个边界框。针对多个边界框形成的初始集合,迭代执行若干轮次的切分操作,其中单论切分操作根据边界框的轴向投影,将本轮当前集合划分为多个子集合,并确定各个子集合的相对排序,直至得到各个边界框的排序编号,该排序编号指示各个边界框的阅读顺序。至少将多个文本片段、多个边界框及其各自的排序编号,输入类别预测模型进行识别处理,得到目标图像中包含的各个元素的类别。CN115546810ACN115546810A权利要求书1/4页1.一种图像元素类别的识别方法,包括:从多模态的目标图像中,提取其中包含的多个文本片段,及其对应的多个边界框;针对所述多个边界框形成的初始集合,迭代执行若干轮次的切分操作,其中单论切分操作根据边界框的轴向投影,将本轮当前集合划分为多个子集合,并确定各个子集合的相对排序,直至得到各个边界框的排序编号,所述排序编号指示各个边界框的阅读顺序;至少将所述多个文本片段、所述多个边界框及其各自的排序编号,输入类别预测模型进行识别处理,得到所述目标图像中包含的各个元素的类别。2.根据权利要求1所述的方法,其中,所述单论切分操作包括:针对本轮当前集合,根据边界框沿第一方向在第一轴上的第一投影,将本轮当前集合划分为多个第一子集合,并确定各个第一子集合的相对排序;其中,各个第一子集合之间,第一投影彼此无交叠。3.根据权利要求2所述的方法,其中,所述单论切分操作包括:若所述多个第一子集合中存在所含边界框数目为多个的中间子集合,针对所述中间子集合,根据边界框沿第二方向在第二轴上的第二投影,将所述中间子集合划分为多个第二子集合,并确定各个第二子集合的相对排序;其中,各个第二子集合之间,第二投影彼此无交叠;所述第二轴垂直于所述第一轴;若所述多个第二子集合中存在所含边界框数目为多个的目标子集合,将其作为下一轮的当前集合。4.根据权利要求2所述的方法,其中,所述第一方向为水平方向,所述第一轴为纵轴。5.根据权利要求2所述的方法,其中,所述将本轮当前集合划分为多个第一子集合包括:确定所述本轮当前集合中各个边界框的第一投影均未覆盖的第一间隙区域;以所述第一间隙区域为界,沿所述第一方向,将本轮当前集合划分为多个第一子集合。6.根据权利要求2所述的方法,其中,所述确定各个第一子集合的相对排序包括:根据各个第一子集合对应的第一投影集合在所述第一轴上的对应坐标的大小,确定所述各个第一子集合的相对排序。7.根据权利要求1所述的方法,还包括:生成关系树;所述关系树的根节点对应于所述初始集合,中间节点用于记录所述若干轮次的切分操作过程,单个叶子节点对应于单个边界框,各个叶子节点的排序对应于各个边界框的排序编号。8.根据权利要求7所述的方法,其中,所述生成关系树包括:以对应于本轮当前集合的当前节点为父节点,生成对应于所述多个子集合的多个子节点,并根据各个子集合的相对排序确定各个子节点的相对位置;直至各个子节点均为叶子节点;所述得到各个边界框的排序编号包括:根据所述关系树的各个叶子节点的相对位置及其代表的边界框,确定各个边界框的排序编号。9.根据权利要求1所述的方法,其中,所述类别预测模型包括:位置编码器和分类器;所述识别处理包括:在所述位置编码器中,基于所述多个文本片段的内容、所述多个边界框的位置及其排2CN115546810A权利要求书2/4页序编号,确定各个文本片段对应的各个第一嵌入向量,并对所述各个第一嵌入向量进行一维卷积处理,得到所述各个文本片段对应的各个位置向量;在所述分类器中,至少基于所述各个文本片段及其对应的各个位置向量,确定所述目标图像中包含的各个元素的类别。10.根据权利要求9所述的方法,其中,所述一维卷积处理的卷积核包括,多个训练得到的参数,每两个参数之间通过0间隔。11.根据权利要求9所述的方法,其中,所述位置编码器包括第一编码器和第二编码器;所述得到多个各个文本片段对应的各个位置向量,包括:通过所述第一编码器