预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115422929A(43)申请公布日2022.12.02(21)申请号202211088506.3(22)申请日2022.09.07(71)申请人支付宝(杭州)信息技术有限公司地址310023浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人孙清清张天翼邹泊滔汤深赖伟达钱涛王爱凌(74)专利代理机构上海专利商标事务所有限公司31100专利代理师钱孟清(51)Int.Cl.G06F40/289(2020.01)G06F40/216(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书10页附图8页(54)发明名称文本纠错方法和系统(57)摘要本公开提出了一种文本纠错方法和系统。该方法包括:接收待纠错文本;使用多种分词方法将待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。CN115422929ACN115422929A权利要求书1/1页1.一种文本纠错方法,包括:接收待纠错文本;使用多种分词方法将所述待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。2.根据权利要求1所述的方法,所述待纠错文本是多语言文本或单语言文本。3.根据权利要求1所述的方法,对每种粒度的子词序列进行纠错进一步包括:通过纠错模型对每种粒度的子词序列进行纠错,其中所述纠错模型用不同语言的训练数据融合训练。4.根据权利要求3所述的方法,所述训练是通过生成对抗网络来实现的。5.根据权利要求1所述的方法,所述多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。6.根据权利要求1所述的方法,所述纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。7.根据权利要求1所述的方法,融合各种粒度的候选纠错文本以确定目标纠错文本进一步包括:对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为所述目标纠错文本。8.一种文本纠错系统,包括:接收模块,接收待纠错文本;分词模块,使用多种分词方法将所述待纠错文本切分成多种粒度的子词序列;候选纠错文本模块,对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;目标纠错文本模块,融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出模块,输出所确定的目标纠错文本。9.根据权利要求8所述的系统,所述待纠错文本是多语言文本或单语言文本。10.根据权利要求8所述的系统,所述候选纠错文本模块还被配置成:通过纠错模型对每种粒度的子词序列进行纠错,其中所述纠错模型用不同语言的训练数据融合训练。11.根据权利要求10所述的系统,所述训练是通过生成对抗网络来实现的。12.根据权利要求8所述的系统,所述多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。13.根据权利要求8所述的系统,所述纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。14.根据权利要求8所述的系统,所述目标纠错文本模块还被配置成:对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为所述目标纠错文本。15.一种计算机可读存储介质,其存储计算机程序,所述计算机程序能被处理器执行以执行如权利要求1‑7中任一项所述的方法。2CN115422929A说明书1/10页文本纠错方法和系统技术领域[0001]本公开涉及文本处理领域,具体涉及文本纠错方法和系统。背景技术[0002]文本纠错可应用于越来越多的场景。例如,在金融风险监控名单扫描产品中,识别客户信息或交易信息的错误拼写、或者客户有意修改基本信息如人名、地名、公司名等规避行为,能够提高金融风险监控名单扫描的准确性和风险覆盖率。另外,在搜索场景中,用户在输入搜索词时有可能出现错误,此时也需要进行文本纠错。[0003]目前文本纠错面临的一个重要挑战是语言特点多样性问题。例如,印尼语与英语发音接近,用户在输入时倾向于按照发音输入,因此很容易将“pampers”错写为“pempes”。此外,越南语有的语音需要使用不同的字母来表示,如c/k/q和d/gi的存在、i和y的并存,拼写上显得有些混乱,容易导致文本错误。[0004]目前的文本纠错方案大多数着重于单语种纠错,且存在各种缺陷。对于多语种纠错,现有技术尚没有合适的解决方案。[0005]有鉴于此,期望提供一种针对多语种的改进的文本纠错方法和系统。发明内容[0006]以下给出一个或多个方面的简要概述以提供对这