预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共38页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113762050A(43)申请公布日2021.12.07(21)申请号202110518209.7(22)申请日2021.05.12(71)申请人腾讯云计算(北京)有限责任公司地址100190北京市海淀区知春路49号3层西部309(72)发明人王斌薛莫白姜德强(74)专利代理机构广州三环专利商标代理有限公司44202代理人熊永强杜维(51)Int.Cl.G06K9/00(2006.01)G06K9/32(2006.01)G06F40/30(2020.01)权利要求书4页说明书23页附图10页(54)发明名称图像数据处理方法、装置、设备以及介质(57)摘要本申请实施例提供了一种图像数据处理方法、装置、设备以及介质,该方法包括:将包含文本信息的图像数据输入至初始文本识别模型,根据初始文本识别模型中的特征提取组件,获取图像数据对应的图像表征信息;根据图像编码组件得到图像表征信息对应的语义编码信息;根据离散编码组件中所包含的码表,获取图像表征信息对应的码表索引置信度,根据码表索引置信度在码表中获取图像表征信息对应的离散编码信息;根据语义编码信息与离散编码信息之间的编码相似度,以及码表索引置信度,对初始文本识别模型的网络参数进行修正,得到目标文本识别模型。采用本申请实施例,可以降低数据的标注成本,并提高文本识别模型的识别效果。CN113762050ACN113762050A权利要求书1/4页1.一种图像数据处理方法,其特征在于,包括:将包含文本信息的图像数据输入至初始文本识别模型,根据所述初始文本识别模型中的特征提取组件,获取所述图像数据对应的图像表征信息;根据所述初始文本识别模型中的图像编码组件,对所述图像表征信息进行编码,得到所述图像表征信息对应的语义编码信息;所述语义编码信息与所述图像数据中的文本信息相关联;根据所述初始文本识别模型的离散编码组件中所包含的码表,获取所述图像表征信息对应的码表索引置信度,根据所述码表索引置信度,在所述码表中获取所述图像表征信息对应的离散编码信息;所述码表包括用于表征文本特征的可学习编码向量;根据所述语义编码信息与所述离散编码信息之间的编码相似度,以及所述码表索引置信度,对所述初始文本识别模型的网络参数进行修正,将参数修正后的特征提取组件和参数修正后的图像编码组件确定为目标文本识别模型;所述目标文本识别模型用于识别待处理图像数据中的文本信息。2.根据权利要求1所述的方法,其特征在于,所述图像表征信息包括T个图像表征特征,所述码表包括V个可学习编码向量,T和V均为正整数;所述根据所述初始文本识别模型的离散编码组件中所包含的码表,获取所述图像表征信息对应的码表索引置信度,根据所述码表索引置信度,在所述码表中获取所述图像表征信息对应的离散编码信息,包括:获取所述初始文本识别模型的离散编码组件中所包含的码表,在所述图像表征信息中的图像表征特征zi;i为小于或等于T的正整数;获取所述图像表征特征zi分别与所述V个可学习编码向量之间的码表索引置信度;在所述V个可学习编码向量中,将最大的码表索引置信度所对应的可学习编码向量确定为目标编码向量;根据所述目标编码向量确定所述图像表征特征zi对应的离散编码特征qi,将T个图像表征特征分别对应的离散编码特征组成所述离散编码信息。3.根据要求2所述的方法,其特征在于,所述获取所述图像表征特征zi分别与所述V个可学习编码向量之间的码表索引置信度,包括:获取所述图像表征特征zi中的特征值所对应的分布随机数,将所述图像表征特征zi中的特征值与所述分布随机数进行相加,得到所述图像表征特征zi对应的候选表征特征;根据所述候选表征特征中的特征值所对应的指数值,获取所述候选表征特征分别与所述V个可学习编码向量之间的码表索引置信度。4.根据权利要求2所述的方法,其特征在于,所述码表的数量为G个,每个码表均对应一个目标编码向量,G为正整数;所述根据所述目标编码向量确定所述图像表征特征zi对应的离散编码特征qi,包括:对G个码表中的目标编码向量进行拼接,得到所述图像表征特征zi对应的联合特征;将所述联合特征输入至全连接网络层,根据所述全连接网络层中的权重矩阵,输出所述图像表征特征zi对应的离散编码特征qi。5.根据权利要求1所述的方法,其特征在于,所述语义编码信息包括T个语义编码特征,所述离散编码信息包括T个离散编码特征,所述编码相似度包括第一相似度和第二相似度,2CN113762050A权利要求书2/4页T为正整数;所述根据所述语义编码信息与所述离散编码信息之间的编码相似度,以及所述码表索引置信度,对所述初始文本识别模型的网络参数进行修正,将参数修正后的特征提取组件和参数修正后的图像编码组件确定为目标文本识别模型,