预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114330304A(43)申请公布日2022.04.12(21)申请号202111629373.1(22)申请日2021.12.28(71)申请人完美世界控股集团有限公司地址100089北京市海淀区上地东路1号院1号楼8层A801(72)发明人于淼刘炎覃建策陈邦忠(74)专利代理机构北京华夏泰和知识产权代理有限公司11662代理人蔡良伟(51)Int.Cl.G06F40/232(2020.01)权利要求书2页说明书13页附图4页(54)发明名称文本的纠错方法及装置、电子设备和存储介质(57)摘要本申请实施例提供了一种文本的纠错方法及装置、电子设备和存储介质,所述方法包括:获取目标领域的文本数据并依据与所述目标领域对应的预设规则确定待纠错的第一文本;利用目标模型对所述待纠错的第一文本进行处理,其中,所述目标模型由数据对集合对初始模型进行训练得到,所述数据对为包含待纠错词汇和正确词汇的词汇数据对;以及在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,其中,所述纠错结果包括所述待纠错的第一文本以及与所述待纠错词汇对应的正确词汇。上述方案解决了现有技术中只针对明确的句法及语法等规则进行纠错,导致纠错效率较低的问题的技术问题。CN114330304ACN114330304A权利要求书1/2页1.一种文本的纠错方法,其特征在于,包括:获取目标领域的文本数据并依据与所述目标领域对应的预设规则确定待纠错的第一文本;利用目标模型对所述待纠错的第一文本进行处理,其中,所述目标模型由数据对集合对初始模型进行训练得到,所述数据对为包含待纠错词汇和正确词汇的词汇数据对;以及在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,其中,所述纠错结果包括所述待纠错的第一文本以及与所述待纠错词汇对应的正确词汇。2.根据权利要求1所述的方法,其特征在于,所述待纠错词汇由混淆集确定,所述正确词汇由数据集确定;在利用目标模型对所述待纠错的第一文本进行处理之前,所述方法还包括:收集所述目标领域的多个关键词,并利用所述多个关键词构建所述数据集;确定与所述多个关键词中每一个字关联的同音字,得到同音字集合;其中,所述同音字为声母和韵母完全相同的字;基于四角编码确定与所述多个关键词中每一个字关联的形似字,得到形似字集合;以及利用所述同音字集合与所述形似字集合构建所述混淆集。3.根据权利要求2所述的方法,其特征在于,所述利用所述同音字集合与所述形似字集合构建所述混淆集,包括:在所述数据集中的第一关键词的文本长度符合第一预设长度标准的情况下,在所述第一关键词中随机选择一个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;在所述数据集中的第二关键词的文本长度符合第二预设长度标准的情况下,在所述第二关键词中随机选择两个字并利用所述同音字集合进行同音字的替换或利用所述形似字集合进行形似字的替换得到所述待纠错词汇;以及利用所述待纠错词汇构建所述混淆集。4.根据权利要求1所述的方法,其特征在于,在利用目标模型对所述待纠错的第一文本进行处理之前,所述方法还包括:根据双向长短期记忆BiLSTM模型构建所述目标模型的错误检测网络;根据基于转换器的双向编码表征BERT模型构建初始模型的错误检测模型和所述初始模型的错误纠正模型;依据所述目标领域设置模型训练的最大序列长度;依据数据对集合对所述初始模型进行训练得到所述目标模型。5.根据权利要求4所述的方法,其特征在于,所述利用目标模型对所述待纠错的第一文本进行处理,包括:获取与所述第一文本对应的输入向量,其中,所述输入向量由所述第一文本的词向量、位置向量和段向量联合构成;基于所述错误检测网络对所述输入向量中的每一个字符进行误差概率计算,得到计算结果;2CN114330304A权利要求书2/2页将1减去所述计算结果的差值乘以所述输入向量的结果作为所述述目标模型的错误纠正网络的输入;基于所述错误纠正网络输出待纠正字符的对应的多个纠正概率,并从候选字符列表中选择所述多个纠正概率中概率最大对应的字符作为所述第一文本中的所述待纠正字符的修正字符。6.根据权利要求5所述的方法,其特征在于,在所述待纠错的第一文本中包括所述待纠错词汇的情况下,通过所述目标模型输出纠错结果,包括:当存在至少一个所述修正字符,输出所述纠错结果。7.根据权利要求6所述的方法,其特征在于,所述纠错结果包括:所述第一文本序列、错误文本字符、正确文本字符以及错误文本字符在所述第一文本序列中的位置的开始索引构成的元组。8.一种文本的纠错装置,其特征在于,包括:获取模块,用于获取目标领域的文本数据并依据与所述目标领域对