图像识别、模型训练方法和装置-豆柴文库

图像识别、模型训练方法和装置.pdf

2023-07-24

10金币

687KB

19页

斌斌****公主

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113919404A(43)申请公布日2022.01.11(21)申请号202010652227.X(22)申请日2020.07.08(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人陈新鹏陈静远夏亮刘袁(74)专利代理机构北京博浩百睿知识产权代理有限责任公司11134代理人谢湘宁张文华(51)Int.Cl.G06K9/62(2006.01)G06V30/194(2022.01)G06V10/774(2022.01)G06V30/148(2022.01)G06V30/24(2022.01)权利要求书2页说明书13页附图3页(54)发明名称图像识别、模型训练方法和装置(57)摘要本发明公开了一种图像识别、模型训练方法和装置。其中，该方法包括：获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本。本发明解决了由于现有技术对整个词汇预测的正确性在OCR模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的技术问题。CN113919404ACN113919404A权利要求书1/2页1.一种图像识别方法，包括：获取待识别图像中的字符串；获取所述字符串的编辑距离，其中，所述编辑距离作为奖惩函数；依据所述奖惩函数对所述字符串进行策略梯度计算，得到识别文本。2.根据权利要求1所述的方法，其中，获取所述字符串的编辑距离，并将所述编辑距离作为奖惩函数包括：获取训练集中每张图像被采样的概率、基于所述待识别图像得到所述字符串的概率和所述字符串的奖赏值；依据所述每张图像被采样的概率、基于所述待识别图像得到所述字符串的概率和所述字符串的奖赏值进行期望计算，得到所述奖惩函数。3.根据权利要求1或2所述的方法，其中，依据所述奖惩函数对所述字符串进行策略梯度计算，得到识别文本包括：依据预设采样算法和所述奖惩函数对所述字符串进行采样，得到第一识别文本；将所述第一识别文本进行策略梯度计算，得到梯度值；依据所述梯度值对所述第一识别文本进行优化，得到第二识别文本；将所述第二识别文本确定为所述识别文本。4.根据权利要求1所述的方法，其中，在所述获取所述字符串的编辑距离之前，所述方法还包括：对所述待识别图像进行裁剪和调整图像的大小；对裁剪和调整图像的大小后的所述待识别图像进行编码，得到编码后的所述字符串；对编码后的所述字符串进行解码，得到解码后的所述字符串。5.根据权利要求4所述的方法，其中，对所述待识别图像进行裁剪和调整图像的大小包括：对所述待识别图像进行裁剪和调整图像的大小，获取所述待识别图像中的字符串的高和宽。6.根据权利要求4所述的方法，其中，对编码后的所述字符串进行解码，得到解码后的所述字符串包括：通过神经网络对编码后的所述字符串进行解码，将解码后的所述字符串。7.一种模型训练方法，包括：获取待识别图像中字符串的编辑距离；依据所述编辑距离和所述字符串进行策略梯度计算，得到梯度值；依据所述梯度值对文字识别网络模型进行训练，得到优化后的所述文字识别网络。8.根据权利要求7所述的方法，其中，所述依据所述编辑距离和所述字符串进行策略梯度计算，得到梯度值包括：依据所述编辑距离和所述字符串计算所述字符串的奖赏值；依据所述奖赏值计算所述字符串对应的期望值；通过预设采样算法对所述字符串进行采采样，并结合所述期望值计算梯度，得到所述梯度值。9.根据权利要求8所述的方法，其中，所述依据所述梯度值对文字识别网络模型进行训2CN113919404A权利要求书2/2页练，得到优化后的所述文字识别网络包括：依据所述梯度值以及所述梯度值的计算公式，对所述文字识别网络模型进行训练，得到优化后的所述文字识别网络。10.一种图像识别方法，包括：获取待识别图像中的字符串；获取所述字符串的编辑距离，其中，所述编辑距离作为奖惩函数；依据所述奖惩函数对所述字符串进行策略梯度计算，得到识别文本；展示所述识别文本；接收依据所述识别文本返回的用户意见信息；依据所述用户意见信息优化所述识别文本。11.一种图像识别装置，包括：第一获取模块，用于获取待识别图像中的字符串；第二获取模块，用于获取所述字符串的编辑距离，其中，所述编辑距离作为奖惩函数；识别模块，用于依据所述奖惩函数对所述字符串进行策略梯度计算，得到识别文本。12.一种模型训练装置，包括：获取模块，用于获取待识别图像中字符串的编辑距离；计算模块，用于依据所述编辑距离和所述字符串进行策略梯度计算，得到梯度值；训练模块，用于依据所述梯度值对文字识别网络模型进行训练，得到优化后的所述文字识别网络。13.一种图像识别装置，包括：第一获

相关资料

图像识别、模型训练方法和装置.pdf

本发明公开了一种图像识别、模型训练方法和装置。其中，该方法包括：获取待识别图像中的字符串；获取字符串的编辑距离，其中，编辑距离作为奖惩函数；依据奖惩函数对字符串进行策略梯度计算，得到识别文本。本发明解决了由于现有技术对整个词汇预测的正确性在OCR模型的训练中未纳入到模型训练中，导致训练阶段和测试阶段的优化目标不一致，识别性能降低的技术问题。

2023-07-24

687KB

图像识别模型训练方法和装置、图像识别方法和装置.pdf

本公开提供一种图像识别模型训练方法和装置、图像识别方法和装置。图像识别模型训练装置利用图像样本集合分别对第一深度学习模型和第二深度学习模型进行训练；将第一深度学习模型的输出结果分为第一非噪声标签样本集合和第一噪声标签样本集合，将第二深度学习模型的输出结果分为第二非噪声标签样本集合和第二噪声标签样本集合；将第一非噪声标签样本集合和第二非噪声标签样本集合的交集作为干净标签样本集合；利用第二非噪声标签样本集合对第一深度学习模型继续进行训练，利用第一非噪声标签样本集合对第二深度学习模型继续进行训练。本公开能够高效

2023-06-14

813KB

图像识别方法、模型训练方法和装置.pdf

本发明公开了一种图像识别方法、模型训练方法和装置。其中，该方法包括：获取待检测对象；通过第一检测网络，对待检测对象进行第一次识别，得到待检测对象对应的识别结果数据集，其中，识别结果数据集用于指示待检测对象所属的检测类别；依据识别结果数据集中满足指定条件的目标框获取图像块，并将图像块输入第二检测网络进行第二次识别，得到目标对象；依据识别结果数据集和目标对象，确定待检测对象是否满足检测需求，得到识别结果。本发明解决了由于现有技术在对果冻进行质检的过程中所适用的算法易产生误报率，从而降低了质检的准确率的技术问题

2023-07-24

1.1MB

图像识别模型的训练方法及装置.pdf

本申请公开了一种图像识别模型的训练方法及装置。方法的一具体实施方式包括：获取用于指示初始图像识别模型在训练过程中改变训练状态的训练状态转移图，训练状态转移图中自初始状态节点至最终状态节点之间包括多个状态转移路径，不同的状态节点对应的超参数的数值不同；按照训练状态转移图的指示，自初始状态节点开始，训练采用所选取的状态节点对应的超参数的初始图像识别模型，以根据初始图像识别模型的识别准确度从多个状态转移路径中确定出目标状态转移路径；将根据目标状态转移路径训练后的初始图像识别模型确定为图像识别模型。本申请提供了一

2023-07-25

1.1MB

图像识别模型的训练方法及装置、图像识别方法及装置.pdf

本申请提供图像识别模型的训练方法及装置、图像识别方法及装置，所述图像识别模型的训练方法包括：获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息；将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息；根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。通过注意力调整机制，使图像识别模型在识别样本图像过程中，能有效关注样本图像的局部特征，避免重复关注样本图像的同一局部特

2023-12-04

873KB