预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113850301A(43)申请公布日2021.12.28(21)申请号202111024304.8(22)申请日2021.09.02(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人刘菁菁宫明明郑霖(74)专利代理机构济南信达专利事务所有限公司37100代理人李世喆(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书12页附图5页(54)发明名称训练数据的获取方法和装置、模型训练方法和装置(57)摘要本说明书实施例提供了一种训练数据的获取方法和装置以及模型训练的方法及装置。在获取训练数据时,利用第一标注数据,训练第一初始模型;将第一无标注数据输入第一初始模型,根据第一初始模型对每一个第一无标注数据的识别结果,对每一个第一无标注数据进行标注,得到第二标注数据;利用第二标注数据,训练第二初始模型;将第二无标注数据输入第一初始模型和第二初始模型,根据第一初始模型和第二初始模型对每一个第二无标注数据的识别结果,对每一个第二无标注数据进行标注,得到第三标注数据;利用所述第三标注数据,得到用于模型训练的训练数据。本说明书实施例能够解决人工标注获取训练数据时的诸多问题。CN113850301ACN113850301A权利要求书1/3页1.训练数据的获取方法,包括:利用已有的第一数量的第一标注数据,训练第一初始模型;将第二数量的第一无标注数据输入第一初始模型,根据第一初始模型对每一个第一无标注数据的识别结果,对每一个第一无标注数据进行标注,得到第三数量的第二标注数据;利用第三数量的第二标注数据,训练第二初始模型;将第四数量的第二无标注数据输入第一初始模型和第二初始模型,根据第一初始模型和第二初始模型对每一个第二无标注数据的识别结果,对每一个第二无标注数据进行标注,得到第五数量的第三标注数据;利用所述第三标注数据,得到用于模型训练的训练数据。2.根据权利要求1所述的方法,其中,所述第一初始模型包括:第一子模型和第二子模型;所述利用已有的第一数量的第一标注数据训练第一初始模型,包括:将第一数量的第一标注数据分为两部分,分别用于训练第一子模型和第二子模型。3.根据权利要求1所述的方法,其中,所述第一初始模型包括:第一子模型和第二子模型;所述将第二数量的第一无标注数据输入第一初始模型,包括:对于每一个第一无标注数据均执行:将该第一无标注数据进行变换,得到变换后的至少两个无标注数据;将该变换后的至少两个无标注数据中的每一个均输入第一子模型和第二子模型,得到至少四个识别结果;所述根据第一初始模型对每一个第一无标注数据的识别结果对每一个第一无标注数据进行标注,包括:从所述至少四个识别结果中筛选出符合标注要求的识别结果;判断符合标注要求的识别结果中,相同数量最多的识别结果的数量值与所述至少四个识别结果的总数量值的比值是否大于预设比例值;如果是,根据相同数量最多的识别结果,对该第一无标注数据进行标注;否则,剔除该第一无标注数据。4.根据权利要求1所述的方法,其中,所述将第四数量的第二无标注数据输入第一初始模型和第二初始模型,包括:对于每一个第二无标注数据均执行:对该第二无标注数据进行变换,得到变换后的至少两个无标注数据;将该变换后的至少两个无标注数据中的每一个均输入第一初始模型和第二初始模型。5.根据权利要求3或4所述的方法,其中,对无标注数据进行变换,包括:对无标注数据进行随机水平镜像或随机拉伸。6.根据权利要求1所述的方法,其中,所述根据第一初始模型和第二初始模型对每一个第二无标注数据的识别结果对每一个第二无标注数据进行标注,包括:判断第一初始模型和第二初始模型对第二无标注数据的至少两个识别结果是否全部符合标注要求;如果不是全部符合,则剔除该第二无标注数据;如果是全部符合,判断该至少两个识别结果是否完全相同;如果完全相同,则剔除该第二无标注数据;如果不完全相同,则确定该至少两个识别结果中相同数量最多的识别结果,并根据该2CN113850301A权利要求书2/3页相同数量最多的识别结果,对该第二无标注数据进行标注。7.根据权利要求1所述的方法,其中,所述利用所述第三标注数据,得到用于模型训练的训练数据,包括:将所述第一标注数据、第二标注数据以及第三标注数据都作为所述训练数据。8.根据权利要求1至7中任一所述的方法,所述得到训练数据,包括:将所有的标注数据分成N份;N为大于1的正整数;选择其中一份作为测试用例,其余N‑1份作为训练用例;利用其中作为训练用例的N‑1份标注数据训练一个模型;将其中作为测试用例的1份标注数