预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113743101A(43)申请公布日2021.12.03(21)申请号202110943260.2(22)申请日2021.08.17(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人刘继强徐梓翔孙萌何中军李芝(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人张梦瑶(51)Int.Cl.G06F40/279(2020.01)G06F40/30(2020.01)权利要求书2页说明书11页附图6页(54)发明名称文本纠错方法、装置、电子设备和计算机存储介质(57)摘要本公开提出了一种文本纠错方法、装置、电子设备和计算机存储介质,涉及人工智能技术领域,尤其涉及自然语言处理和机器学习技术领域。具体实现方案为:获取参考译文和对应的待纠错的源文本,将源文本和参考译文作为输入文本输入至序列标注模型,以对输入文本中各字符标注纠错标签,根据纠错标签指示的调整策略,对源文本的各字符进行调整,得到对源文本纠错后的目标文本。本公开中采用参考译文作为待纠错的源文本进行纠错时的参照,输入序列标注模型中,得到标注的各个字符的纠错标签,可以找出待纠错文本的各种错误,提高了纠错结果的准确性。CN113743101ACN113743101A权利要求书1/2页1.一种文本纠错方法,包括:获取参考译文和对应的待纠错的源文本;将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签;根据所述纠错标签指示的调整策略,对所述源文本的各字符进行调整,得到对所述源文本纠错后的目标文本。2.根据权利要求1所述的方法,其中,所述将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签,包括:将所述源文本和所述参考译文拼接,以得到所述输入文本;将所述输入文本输入所述序列标注模型;采用所述序列标注模型中的输入层,对所述输入文本中的各字符进行编码;采用所述序列标注模型中的翻译层,对所述输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征;采用所述序列标注模型中的分类预测层,根据各字符的语义特征对各字符标注所述纠错标签。3.根据权利要求2所述的方法,其中,所述采用所述序列标注模型中的翻译层,对所述输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征,包括:将所述输入文本中各字符的编码输入所述翻译层的注意力网络,以采用多头注意力机制预测所述输入文本中各字符之间的语义相关性;所述翻译层的前馈神经网络根据所述注意力网络预测的语义相关性对各字符的编码进行语义特征提取,得到各字符的语义特征。4.根据权利要求2所述的方法,其中,所述采用所述序列标注模型中的输入层,对所述输入文本中的各字符进行编码,包括:采用所述输入层,对所述输入文本中的各字符根据各所述字符所属的语言类型和字符位置进行编码,以得到各所述字符的编码。5.根据权利要求1‑4任一项所述的方法,其中,所述将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签之前,还包括:获取多组语料对,其中,各组所述语料对中包括第一训练文本,以及对应训练译文;从多个设定规则中,随机确定目标规则;根据所述目标规则,对所述第一训练文本中至少一个字符进行调整,以得到第二训练文本,并对所述至少一个字符标注所述目标规则对应的目标标签;根据设定的固定标签,对所述训练译文标注对应的所述目标标签;将所述第二训练文本和所述训练译文输入所述序列标注模型,以得到所述第二训练文本和所述训练译文中各字符的预测标签;根据所述预测标签和所述目标标签之间的差异,对所述序列标注模型进行训练。6.一种文本纠错装置,包括:第一获取模块,用于获取参考译文和对应的待纠错的源文本;第一预测模块,用于将所述源文本和所述参考译文作为输入文本输入至序列标注模型,以对所述输入文本中各字符标注纠错标签;2CN113743101A权利要求书2/2页调整模块模块,用于根据所述纠错标签指示的调整策略,对所述源文本的各字符进行调整,得到对所述源文本纠错后的目标文本。7.根据权利要求6所述的装置,其中,所述第一预测模块,包括:拼接单元,用于将所述源文本和所述参考译文拼接,以得到所述输入文本;输入单元,用于将所述输入文本输入所述序列标注模型;编码单元,用于采用所述序列标注模型中的输入层,对所述输入文本中的各字符进行编码;特征提取单元,用于采用所述序列标注模型中的翻译层,对所述输入文本中的各字符的编码进行语义特征提取,得到各字符的语义特征;标注单元,用于采用所述序列标注模型中的分类预测层,根据各字符的语义特征对各字符标注所述纠错标签。