一种训练数据获取方法、装置及模型训练方法、装置-豆柴文库

一种训练数据获取方法、装置及模型训练方法、装置.pdf

2023-07-25

10金币

793KB

26页

是雁****找我

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共26页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113762292A(43)申请公布日2021.12.07(21)申请号202010493777.1(22)申请日2020.06.03(71)申请人杭州海康威视数字技术股份有限公司地址310051浙江省杭州市滨江区阡陌路555号(72)发明人唐苗许江浩任国焘洪文杰师文靖(74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙)11413代理人马敬丁芸(51)Int.Cl.G06K9/62(2006.01)G06K9/32(2006.01)权利要求书3页说明书19页附图3页(54)发明名称一种训练数据获取方法、装置及模型训练方法、装置(57)摘要本申请实施例提供了一种训练数据获取方法、装置及模型训练方法、装置。其中，所述方法包括：获取预设第一格式的训练数据全量信息；对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据；获取目标子图像的第二标识信息；对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据。可以通过格式转化将训练数据全量信息的信息分别转化成训练检测模型所需的信息和以及训练识别模型所需的信息，即通过对检测训练数据和识别训练数据中不同字段中的信息进行融合，降低所需获取的训练数据中信息的冗余度，有效降低所需获取的用于训练数据的数据量，因此可以有效降低获取训练数据所花费的时间，提高模型训练的效率。CN113762292ACN113762292A权利要求书1/3页1.一种训练数据获取方法，其特征在于，所述方法包括：获取预设第一格式的训练数据全量信息，所述预设第一格式中设置有第一标识字段、第一位置字段和第一真值字段，所述训练数据全量信息中所述第一标识字段携带有第一标识信息，所述第一位置字段携带有位置信息，所述第一真值字段携带有真值信息，其中，所述标识信息用于标识样本图像，所述位置信息用于表示所述标识信息所标识的样本图像中存在目标的图像区域，所述真值信息用于表示所述位置信息所表示的图像区域内存在的目标的真值；对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，所述预设第二格式中设置有第二标识字段和第二位置字段，所述第二标识字段用于标识训练检测模型所使用的样本图像，所述第二位置字段用于表示训练所述检测模型时所述第二标识字段所标识的样本图像的真值，所述检测训练数据中所述第二标识字段中携带有所述第一标识信息，所述第二位置字段携带有所述位置信息；获取目标子图像的第二标识信息，所述目标子图像为包括所述第一标识信息所标识的样本图像中所述位置信息所表示的图像区域内的图像；对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，所述预设第三格式中设置有第三标识字段、第三位置字段以及第二真值字段，所述第三标识字段用于标识训练识别模型所使用的样本图像，所述第三位置字段用于表示所述第三标识字段所标识的样本图像中存在目标的图像区域，所述第二真值字段用于表示训练所述识别模型时所述第三标识字段所标识的样本图像的真值，所述识别训练数据中所述第三标识字段携带有所述第二标识信息，所述第三位置字段携带有所述位置信息，所述第二真值字段携带有所述真值信息。2.根据权利要求1所述的方法，其特征在于，所述对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据，包括：删除所述训练数据全量信息中的第一真值字段；将删除后的训练数据全量信息中的第一标识字段转化为预设第二格式中的第二标识字段，将第一位置字段转化为所述预设第二格式中的第二位置字段，得到所述预设第二格式的检测训练数据。3.根据权利要求1所述的方法，其特征在于，所述对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据，包括：将所述训练数据全量信息中的第一标识字段所携带的信息更新为所述第二标识信息；将更新后的训练数据全量信息中的第一标识字段转化为预设第三格式中的第三标识字段，将第一位置字段转化为所述预设第三格式中的第三位置字段，将第一真值字段转化为所述第三格式中的第二真值字段，得到所述预设第三格式的识别训练数据。4.根据权利要求3所述的方法，其特征在于，所述真值信息为真值序列，所述真值序列中第i个元素用于表示所述位置信息所表示的图像区域内按照预设规则排序的第i个目标的真值，i为不小于1且不大于所述真值序列长度的任一正整数；所述预设第三格式中的所述第二真值字段包括多个子字段，其中，每个子字段用于表示训练所述识别模型时所述第三标识字段所标识的样本图像中一个目标的真值；所述将第一真值字段转化为所述预设第三格式中的第二真值字段，包括：2CN113762292A权利要求书2/3页将第一真值字段分割为所述预设第三格式中所述第二真值字段的多个子字段，其中，每个子字段携带有所述真值序

相关资料

一种训练数据获取方法、装置及模型训练方法、装置.pdf

本申请实施例提供了一种训练数据获取方法、装置及模型训练方法、装置。其中，所述方法包括：获取预设第一格式的训练数据全量信息；对所述训练数据全量信息进行格式转化，得到预设第二格式的检测训练数据；获取目标子图像的第二标识信息；对所述训练数据全量信息进行格式转化，得到预设第三格式的识别训练数据。可以通过格式转化将训练数据全量信息的信息分别转化成训练检测模型所需的信息和以及训练识别模型所需的信息，即通过对检测训练数据和识别训练数据中不同字段中的信息进行融合，降低所需获取的训练数据中信息的冗余度，有效降低所需获取的用

2023-07-25

793KB

训练数据的获取方法和装置、模型训练方法和装置.pdf

本说明书实施例提供了一种训练数据的获取方法和装置以及模型训练的方法及装置。在获取训练数据时，利用第一标注数据，训练第一初始模型；将第一无标注数据输入第一初始模型，根据第一初始模型对每一个第一无标注数据的识别结果，对每一个第一无标注数据进行标注，得到第二标注数据；利用第二标注数据，训练第二初始模型；将第二无标注数据输入第一初始模型和第二初始模型，根据第一初始模型和第二初始模型对每一个第二无标注数据的识别结果，对每一个第二无标注数据进行标注，得到第三标注数据；利用所述第三标注数据，得到用于模型训练的训练数据。

2023-05-25

1MB

语音训练数据获取、模型训练方法、装置及电子设备.pdf

本发明实施例公开了一种语音训练数据获取、模型训练方法、装置及电子设备，包括：将语音数据存储设备中的语音数据以电信号的传播方式输入至目标设备；过信道处理所述语音数据；获取过信道处理后的过信道语音数据。本发明实施例能够降低语音训练数据的采集成本，提高语音训练数据的质量和通用性，进而提高语音识别模型的训练效率和识别效果。

2023-07-25

670KB

获取视频数据的方法、深度学习模型的训练方法和装置.pdf

本公开提供了一种获取视频数据的方法、深度学习模型的训练方法、装置、设备、介质和产品，涉及知识图谱、自然语言处理、深度学习等人工智能技术领域。获取视频数据的方法包括：处理与第一类型视频数据相关联的第一文本数据，得到候选字词和与候选字词对应的字词类别；基于字词类别，从候选字词中确定目标字词；基于目标字词，从第二类型视频数据中获取与第一类型视频数据相关联的目标视频数据。

2023-07-21

1.1MB

模型训练方法、数据处理方法及装置.pdf

本申请涉及一种模型训练方法、数据处理方法及装置，所述模型训练方法包括：获取第一训练集，第一训练集中包括多个第一稀疏矩阵，每个第一稀疏矩阵表示一个角度域和时延域的信道状态信息；将第一稀疏矩阵输入编码网络，输出第一均值矩阵和第一尺度矩阵；根据第一均值矩阵和第一尺度矩阵，构建第一量化矩阵；将第一量化矩阵输入解码网络，输出第一估计矩阵和第一指示矩阵；根据第一均值矩阵和第一尺度矩阵，确定第一损失；根据第一估计矩阵和第一指示矩阵，确定第二损失；基于第一损失和第二损失调整编码网络的参数以及解码网络的参数。本申请实施例能

2023-06-07

941KB