图文识别模型的训练方法、装置、电子设备及存储介质-豆柴文库

图文识别模型的训练方法、装置、电子设备及存储介质.pdf

2023-07-22

10金币

1KB

28页

建英****66

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共28页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114972910A(43)申请公布日2022.08.30(21)申请号202210550793.9(22)申请日2022.05.20(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦二层(72)发明人单斌尹维冲孙宇(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201专利代理师罗岚(51)Int.Cl.G06V10/774(2022.01)G06K9/62(2022.01)权利要求书4页说明书16页附图7页(54)发明名称图文识别模型的训练方法、装置、电子设备及存储介质(57)摘要本公开提供了一种图文识别模型的训练方法、装置、电子设备及存储介质，具体为计算机视觉和自然语言处理技术领域。具体实现方案为：获取初始样本图像，其中，初始样本图像对应初始样本文本，处理初始样本图像，以得到扩展样本图像，处理初始样本文本，以得到扩展样本文本，以及根据扩展样本图像和扩展样本文本训练初始图文识别模型，以得到目标图文识别模型。可以联合扩展样本图像和扩展样本文本训练初始图文识别模型以得到目标图文识别模型，有效提升图文识别模型训练效果，有效提升目标图文识别模型的泛化性和鲁棒性，提升图文识别模型执行图文识别任务时的准确性。CN114972910ACN114972910A权利要求书1/4页1.一种图文识别模型的训练方法，包括：获取初始样本图像，其中，所述初始样本图像对应初始样本文本；处理所述初始样本图像，以得到扩展样本图像；处理所述初始样本文本，以得到扩展样本文本；以及根据所述扩展样本图像和所述扩展样本文本训练初始图文识别模型，以得到目标图文识别模型。2.根据权利要求1所述的方法，在所述获取初始样本图像之后，还包括：确定所述初始样本图像的初始图像语义；根据所述初始图像语义，确定初始文本语义；以及生成与所述初始文本语义所对应样本文本，并将所述所对应样本文本作为所述初始样本文本。3.根据权利要求1所述的方法，其中，所述处理所述初始样本图像，以得到扩展样本图像，包括：确定目标视觉特征；确定所述初始样本图像的初始视觉特征；以及将所述初始样本图像的初始视觉特征调整为所述目标视觉特征，以得到所述扩展样本图像。4.根据权利要求3所述的方法，其中，所述将所述初始样本图像的初始视觉特征调整为所述目标视觉特征，以得到所述扩展样本图像，包括：从所述初始样本图像中确定所述初始视觉特征所描述图像内容；根据所述目标视觉特征描述所述初始样本图像中的所述图像内容，以得到所述扩展样本图像。5.根据权利要求3所述的方法，其中，所述确定目标视觉特征，包括：确定视觉模态类型；获取所述视觉模态类型所描述图像的视觉特征，并将所述所描述图像的视觉特征作为所述目标视觉特征。6.根据权利要求2所述的方法，其中，所述处理所述初始样本文本，以得到扩展样本文本，包括：确定目标文本特征；根据所述目标文本特征处理所述初始样本文本，以得到所述扩展样本文本。7.根据权利要求6所述的方法，其中，所述确定目标文本特征，包括：确定文本模态类型；获取所述文本模态类型所描述文本的文本特征，并将所述所描述文本的文本特征作为所述目标文本特征。8.根据权利要求6所述的方法，其中，所述根据所述目标文本特征处理所述初始样本文本，以得到所述扩展样本文本，包括：获取所述初始样本文本的初始文本特征；将所述初始样本文本的初始文本特征调整为所述目标文本特征，以得到所述扩展样本文本。2CN114972910A权利要求书2/4页9.根据权利要求6所述的方法，其中，所述根据所述目标文本特征处理所述初始样本文本，以得到所述扩展样本文本，包括：根据所述目标文本特征处理所述初始样本文本的初始文本语义，以得到所处理文本语义；根据所述所处理文本语义，生成所述扩展样本文本。10.根据权利要求1‑9任一项所述的方法，其中，所述根据所述扩展样本图像和所述扩展样本文本训练初始图文识别模型，以得到目标图文识别模型，包括：获取所述扩展样本图像和所述扩展样本文本之间的标注语义关系；将所述扩展样本图像和所述扩展样本文本输入至所述初始图文识别模型之中，以得到所述初始图文识别模型输出的预测语义关系；如果所述预测语义关系和所述标注语义关系之间满足收敛条件，则将训练所得图文识别模型作为所述目标图文识别模型。11.一种图文识别方法，包括：获取待识别图像，其中，所述待识别图像对应待识别文本；将所述待识别图像和所述待识别文本输入至如上述权利要求1‑10任一项所述的图文识别模型的训练方法训练得到的目标图文识别模型中，以得到所述目标图文识别模型输出的目标语义关系。12.一种图文识别模型的训练装置，包括：第一获取模块，用于获取初始样本图像，其中，所述初始样本图像对应初始样本文本；

相关资料

图文识别模型的训练方法、装置、电子设备及存储介质.pdf

本公开提供了一种图文识别模型的训练方法、装置、电子设备及存储介质，具体为计算机视觉和自然语言处理技术领域。具体实现方案为：获取初始样本图像，其中，初始样本图像对应初始样本文本，处理初始样本图像，以得到扩展样本图像，处理初始样本文本，以得到扩展样本文本，以及根据扩展样本图像和扩展样本文本训练初始图文识别模型，以得到目标图文识别模型。可以联合扩展样本图像和扩展样本文本训练初始图文识别模型以得到目标图文识别模型，有效提升图文识别模型训练效果，有效提升目标图文识别模型的泛化性和鲁棒性，提升图文识别模型执行图文识别

2023-07-22

1KB

文字识别模型的训练方法及装置、存储介质、电子设备.pdf

本公开是关于一种文字识别模型的训练方法及装置、存储介质、电子设备，涉及机器学习技术领域，该方法包括：根据历史图像以及历史图像的真实文字标签，构建数据集，并将数据集中的历史图像输入至训练完成的教师模型中，得到历史图像的软目标标签；将数据集中的历史图像输入至与教师模型具有相同输出层的学生模型中，得到历史图像的软预测标签以及实际预测标签；根据软目标标签以及软预测标签构建第一损失函数，并根据真实文字标签以及实际预测标签构建第二损失函数；根据第一损失函数以及第二损失函数对学生模型进行蒸馏训练，得到训练完成的文字识别

2023-07-25

967KB

眩晕识别模型的训练方法、装置、电子设备及存储介质.pdf

本申请公开了一种眩晕识别模型的训练方法、装置及存储介质。其中方法包括：获取若干用户在目标视频刺激时各自产生的脑电信号，以确定若干用户在目标视频刺激时分别对应的眩晕特征；确定若干用户在目标视频时分别对应的第一眩晕评分和第二眩晕评分；根据第二眩晕评分和第一眩晕评分，确定若干用户对目标视频分别对应的眩晕值；依据若干用户在目标视频刺激时分别对应的眩晕特征以及眩晕值，对预构建的分类器进行训练，得到针对目标用户的眩晕识别模型。本申请实现了眩晕的自动化识别目的，改进了相关的人工识别方式导致的识别准确度差的问题，为眩晕识

2023-07-24

468KB

人脸识别模型的训练方法、装置、电子设备及存储介质.pdf

本发明实施例提供了一种人脸识别模型的训练方法、装置、电子设备及存储介质，方法包括：获取源域人脸特征以及初始化识别模型；获取目标域的目标人脸图像样本；基于目标人脸图像样本以及源域人脸特征，调整初始化识别模型的部分模型参数，直到初始化识别模型收敛，得到针对源域和目标域的人脸识别模型。初始化模型在使用源域的全量人脸图像样本训练后，保存部分源域人脸特征，并固定初始化模型部分参数。进而，使用目标域的目标人脸图像样本和源域人脸特征对该初始化模型进行进一步训练后，得到针对源域和目标域的人脸识别模型。既保持了对源域全量人

2023-07-23

940KB

语音识别模型的训练方法、装置、存储介质及电子设备.pdf

本公开涉及语音识别领域，具体涉及一种语音识别模型的训练方法、装置、存储介质及电子设备。该语音识别模型的训练方法包括构建初始语音识别模型；固定第二初始参数，基于无标注数据集计算对比学习损失函数以将第一初始参数调整为第一中间参数；固定第一中间参数，基于有标注数据集计算第一联合损失函数以将第二初始参数调整为第二中间参数；基于有标注数据集计算第二联合损失函数，并根据第二联合损失函数对第一网络和第二网络进行训练，以调整第一中间参数和第二中间参数得到目标语音识别模型。本公开提供的语音识别模型的训练方法能够解决语音识别

2023-07-21

755KB