预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114169315A(43)申请公布日2022.03.11(21)申请号202111568264.3G06F40/103(2020.01)(22)申请日2021.12.21G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人深圳供电局有限公司地址518000广东省深圳市罗湖区深南东路4020号电力调度通信大楼(72)发明人许冠中黄安子(74)专利代理机构深圳汇智容达专利商标事务所(普通合伙)44238代理人徐文城(51)Int.Cl.G06F40/232(2020.01)G06F40/242(2020.01)G06F40/284(2020.01)G06F40/289(2020.01)G06F16/335(2019.01)权利要求书2页说明书7页附图2页(54)发明名称一种文本纠错方法、系统、设备及介质(57)摘要本发明提供一种文本纠错方法、系统、设备及介质,包括,获取待纠错的目标文本,并按照预设的格式标准对所述目标文本进行格式转化;通过预设的纠错模型对格式转化后的目标文本进行文本错误检测,得到错误检测结果;通过预先训练的对齐模型对所述错误检测结果进行文本召回,得到与所述错误检测结果对应的多个候选召回结果;按预设标准将多个候选召回结果进行排序,并将排序第一的候选召回结果输出为文本纠错结果。本发明提供专业领域文本纠错能力,从文章撰写和文章检查角度辅助创作,针对运行日报等结构化文档,可实现机器自动纠错,大幅提升工作效率,减轻基层负担。CN114169315ACN114169315A权利要求书1/2页1.一种文本纠错方法,其特征在于,包括:获取待纠错的目标文本,并按照预设的格式标准对所述目标文本进行格式转化;通过预设的纠错模型对格式转化后的目标文本进行文本错误检测,得到错误检测结果;通过预先训练的对齐模型对所述错误检测结果进行文本召回,得到与所述错误检测结果对应的多个候选召回结果;按预设标准将多个候选召回结果进行排序,并将排序第一的候选召回结果输出为文本纠错结果。2.如权利要求1所述的方法,其特征在于,所述通过预设的纠错模型对格式转化后的目标文本进行文本错误检测具体包括:根据预设的分词字典以一个词为最小匹配长度从所述目标文本的尾端进行匹配,得到分词结果;当在预设的分词字典中匹配到了一个词汇时,将被匹配到的词汇作为一个词条;当匹配失败时,将匹配长度加一,直至匹配到与预设的分词字典中对应的词为止,并将被匹配到的词汇作为一个词条;当待匹配长度已经超过预设的分词字典中最长词的长度,或者匹配索引已经到达了文本首字符处且仍未匹配到对应的词时,将此次匹配的尾字作为一个词条。3.如权利要求2所述的方法,其特征在于,所述通过预设的纠错模型对格式转化后的目标文本进行文本错误检测具体还包括:根据预设的序列化标注模型对所述分词结果进行序列化标注;当序列化标注时,按照有前到后的顺序对每个词条的词性进行识别,并按照识别结果对每个词条进行标注,得到标注序列结果。4.如权利要求3所述的方法,其特征在于,所述通过预设的纠错模型对格式转化后的目标文本进行文本错误检测具体还包括:将所述标注序列结果与预设的标准词性标注序列库中的标准标注序列进行匹配;当未匹配到任一标准标注序列时,判定为一处文本错误。5.如权利要求4所述的方法,其特征在于,所述预先训练的对齐模型通过以下步骤进行训练:获取多各数据源的错误对齐文本;将所述错误对齐文本作为输入量输入预设的对齐模型,得到多个不同长度词的错误混淆结果;将多个不同长度词的错误混淆结果作为错误混淆矩阵存入所述预设的对齐模型,得到预先训练的对齐模型。6.如权利要求5所述的方法,其特征在于,所述通过预先训练的对齐模型对所述错误检测结果进行文本召回具体包括:检测所述错误检测结果,并根据预设的语音模型和错误混淆矩阵匹配错误点处对应的正确文本内容,得到对应的多个候选召回结果。7.一种文本纠错系统,用以实现如权利要求1‑6任一项所述的方法,其特征在于,包括:数据获取模块,用以获取待纠错的目标文本,并按照预设的格式标准对所述目标文本2CN114169315A权利要求书2/2页进行格式转化;错误检测模块,用以通过预设的纠错模型对格式转化后的目标文本进行文本错误检测,得到错误检测结果;召回模块,用以通过预先训练的对齐模型对所述错误检测结果进行文本召回,得到与所述错误检测结果对应的多个候选召回结果;并按预设标准将多个候选召回结果进行排序,并将排序第一的候选召回结果输出为文本纠错结果。8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。9