预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114970493A(43)申请公布日2022.08.30(21)申请号202110205328.7(22)申请日2021.02.24(71)申请人武汉TCL集团工业研究院有限公司地址430000湖北省武汉市东湖新技术开发区高新大道999号未来科技大厦8层(72)发明人李超杜明宇张高升(74)专利代理机构深圳中一联合知识产权代理有限公司44414专利代理师甘莹(51)Int.Cl.G06F40/205(2020.01)G06F40/232(2020.01)G06N3/08(2006.01)权利要求书3页说明书15页附图4页(54)发明名称生成标记语料的方法、装置、终端设备及存储介质(57)摘要本申请提供了一种生成标记语料的方法、装置、终端设备及存储介质,该方法包括:针对任一正确语句,确定正确语句中的至少一个待替换字符;确定每个待替换字符对应的至少两个候选替换字符;根据每个待替换字符和每个待替换字符对应的至少两个候选替换字符,获得正确语句对应的至少两个错误语句;通过预设自然语言模型获得每个错误语句的评估结果,以及根据每个错误语句的评估结果确定正确语句对应的目标错误语句。通过上述方法,可以高效获得高质量的标记语料。CN114970493ACN114970493A权利要求书1/3页1.一种生成标记语料的方法,其特征在于,包括:针对任一正确语句,确定所述正确语句中的至少一个待替换字符;确定每个待替换字符对应的至少两个候选替换字符;根据所述每个待替换字符和所述每个待替换字符对应的至少两个候选替换字符,获得所述正确语句对应的至少两个错误语句;通过预设自然语言模型获得每个错误语句的评估结果,以及根据所述每个错误语句的评估结果确定所述正确语句对应的目标错误语句。2.如权利要求1所述的方法,其特征在于,所述针对任一正确语句,确定所述正确语句中的至少一个待替换字符之前,所述方法还包括:获取参考语料,所述参考语料包括至少一个正确语句;获取所述参考语料对应的替换字符确定规则,所述替换字符确定规则包括替换字符个数确定规则和/或连续替换字符确定规则;所述确定所述正确语句中的至少一个待替换字符,包括:根据所述替换字符个数确定规则确定所述正确语句中的待替换字符的数量,根据所述正确语句中的待替换字符的数量,确定所述正确语句中的至少一个待替换字符;和/或,根据所述连续替换字符确定规则确定所述正确语句中的待替换字符组成的连续字符的长度,根据所述正确语句中的待替换字符组成的连续字符的长度,确定所述正确语句中的至少一个待替换字符。3.如权利要求2所述的方法,其特征在于,所述根据所述替换字符个数确定规则确定所述正确语句中的待替换字符的数量,和/或,根据所述连续替换字符确定规则确定所述正确语句中的待替换字符组成的连续字符的长度,包括:根据所述正确语句的字符总个数,确定所述正确语句中的待替换字符的最大数量;根据所述替换字符个数确定规则以及所述待替换字符的最大数量,确定所述正确语句中的待替换字符的数量,和/或,根据所述连续替换字符确定规则以及所述待替换字符的最大数量,确定所述正确语句中的待替换字符组成的连续字符的长度。4.如权利要求2所述的方法,其特征在于,所述获取所述参考语料对应的替换字符确定规则之前,所述方法还包括:获取预设样本语料,所述预设样本语料与所述参考语料所属的应用领域相同,所述预设样本语料包括至少两个样本错误语句以及每个样本错误语句的错误字符标签;根据所述每个样本错误语句的错误字符标签,获得所述应用领域对应的错误字符分布信息;根据所述错误字符分布信息,确定所述参考语料对应的替换字符确定规则。5.如权利要求1所述的方法,其特征在于,所述正确语句对应的目标错误语句的数量为至少两个,并且所述正确语句的各个目标错误语句的目标错误字符的位置互不相同,每个目标错误字符对应一个待替换字符,且所述每个目标错误字符为其对应的待替换字符对应的一个候选替换字符。6.如权利要求1所述的方法,其特征在于,所述根据所述每个错误语句的评估结果确定所述正确语句对应的目标错误语句,包括:根据所述每个待替换字符关联的错误语句的评估结果,确定所述正确语句中的所述每2CN114970493A权利要求书2/3页个待替换字符对应的目标替换字符;根据所述每个待替换字符对应的目标替换字符,获得所述正确语句对应的目标错误语句。7.如权利要求1所述的方法,其特征在于,所述确定所述正确语句中的至少一个待替换字符,包括:确定至少两组待替换字符组,每组待替换字符组包含至少一个待替换字符,不同的待替换字符组之间的待替换字符的位置互不相同;所述根据所述每个待替换字符和所述每个待替换字符对应的至少两个候选替换字符,获得所述正确语句对应的至少两个错误语句,包括:根