预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113901797A(43)申请公布日2022.01.07(21)申请号202111210864.2G06F40/44(2020.01)(22)申请日2021.10.18G06K9/62(2022.01)(71)申请人广东博智林机器人有限公司地址528000广东省佛山市顺德区北滘镇碧桂园社区泮浦路1号A1栋2楼A2-05(仅作办公用途)(住所申报)(72)发明人吴迪邹俊逸董忠蔡巍柯淑玲(74)专利代理机构北京市京大律师事务所11321代理人姚维(51)Int.Cl.G06F40/242(2020.01)G06F40/279(2020.01)G06F40/284(2020.01)权利要求书3页说明书15页附图3页(54)发明名称文本纠错方法、装置、设备及存储介质(57)摘要本发明涉及人工智能技术领域,提供一种文本纠错方法、装置、设备及存储介质,用于提高文本纠错的准确性和效率。文本纠错方法包括:获取原始文本数据集的目标混淆词典,并通过目标混淆词典,对原始文本数据集进行字词替换,得到错别字文本数据集;获取再训练文本数据集,通过错别字文本数据集、预设损失函数和再训练文本数据集,对预置的初始文本纠错模型进行训练,得到目标文本纠错模型,目标文本纠错模型包括基于bert模型的校正网络;获取待处理文本,通过目标文本纠错模型和目标混淆词典,对待处理文本依次进行位置错别字概率计算和字典字词纠正,得到纠错后的文本。CN113901797ACN113901797A权利要求书1/3页1.一种文本纠错方法,其特征在于,所述文本纠错方法包括:获取原始文本数据集的目标混淆词典,并通过所述目标混淆词典,对所述原始文本数据集进行字词替换,得到错别字文本数据集;获取再训练文本数据集,通过所述错别字文本数据集、预设损失函数和所述再训练文本数据集,对预置的初始文本纠错模型进行训练,得到目标文本纠错模型,所述目标文本纠错模型包括基于bert模型的校正网络;获取待处理文本,通过所述目标文本纠错模型和所述目标混淆词典,对所述待处理文本依次进行位置错别字概率计算和字典字词纠正,得到纠错后的文本。2.根据权利要求1所述的文本纠错方法,其特征在于,所述目标文本纠错模型包括基于bert模型的校正网络和基于bert模型的检测网络,所述获取待处理文本,通过所述目标文本纠错模型和所述目标混淆词典,对所述待处理文本依次进行位置错别字概率计算和字典字词纠正,得到纠错后的文本,包括:获取待处理文本,通过所述目标文本纠错模型,对所述待处理文本进行嵌入向量转换,得到文本向量序列;通过所述检测网络,对所述文本向量序列中的每个位置进行错别字的概率计算,得到错别字概率;对所述错别字概率进行掩码的嵌入向量转换,得到错别字概率向量;通过所述校正网络,基于所述错别概率向量和所述目标混淆词典,对所述待处理文本进行各位置的字概率计算和概率分类,得到纠错后的文本。3.根据权利要求2所述的文本纠错方法,其特征在于,所述通过所述校正网络,基于所述错别概率向量和所述目标混淆词典,对所述待处理文本进行各位置的字概率计算和概率分类,得到纠错后的文本,包括:通过所述校正网络的bert模型,基于所述错别概率向量和所述目标混淆词典,计算所述待处理文本的各位置的字概率,得到各位置的字概率集,所述校正网络包括bert模型和归一化指数函数;通过所述归一化指数函数,基于各位置的字概率集从所述目标混淆词典中获取所述待处理文本中各位置对应的字词,得到纠错后的文本,所述纠错后的文本为句子长度*字典长度的二维向量。4.根据权利要求1所述的文本纠错方法,其特征在于,所述获取再训练文本数据集,通过所述错别字文本数据集、预设损失函数和所述再训练文本数据集,对预置的初始文本纠错模型进行训练,得到目标文本纠错模型,所述目标文本纠错模型包括基于bert模型的校正网络,包括:构建检测网络和校正网络,得到初始文本纠错模型,所述检测网络包括bert模型和第一预设维度的全连接层,所述校正网络包括bert模型和第二预设维度的分类层;通过所述错别字文本数据集和预设损失函数,对所述初始文本纠错模型进行训练,得到候选文本纠错模型;获取再训练文本数据集,所述再训练文本数据集包括稀有专有名词或者新兴名词,以及稀有专有名词或者新兴名词对应的错别字;通过所述再训练文本数据集,对所述候选文本纠错模型进行再训练,得到目标文本纠2CN113901797A权利要求书2/3页错模型。5.根据权利要求4所述的文本纠错方法,其特征在于,所述通过所述错别字文本数据集和预设损失函数,对所述初始文本纠错模型进行训练,得到候选文本纠错模型,包括:通过所述初始文本纠错模型,对所述错别字文本数据集进行文本纠错处理,得到纠错结果;通