预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113657098A(43)申请公布日2021.11.16(21)申请号202110975680.9(22)申请日2021.08.24(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人谷坤(74)专利代理机构深圳国新南方知识产权代理有限公司44374代理人李小东(51)Int.Cl.G06F40/232(2020.01)G06F40/284(2020.01)权利要求书2页说明书9页附图5页(54)发明名称文本纠错方法、装置、设备及存储介质(57)摘要本发明涉及人工智能技术领域,公开了一种文本纠错方法、装置、设备及存储介质,该方法包括:获取待纠错文本序列;将待纠错文本序列输入Bert模型中,对待纠错文本序列中错别字进行识别,得到错别字集合,基于预设候选字集合对错别字集合进行纠错,得到纠错后的目标文本序列;依次从目标文本序列中提取纠错后的第一目标字并获取与第一目标字对应的纠错前的第二目标字,计算第一目标字和第二目标字之间的字形相似度以及字相似度;根据字形相似度和字相似度计算纠错判断因子,将纠错判断因子与预设阈值进行比对,根据比对结果确定待纠错文本序列的纠错结果。通过上述方式,本发明能够解决Bert模型对于词相似性判定过于粗暴导致类过拟合的问题。CN113657098ACN113657098A权利要求书1/2页1.一种文本纠错方法,其特征在于,包括:获取待纠错文本数据,对所述待纠错文本数据进行预处理,得到待纠错文本序列;将所述待纠错文本序列输入Bert模型中,对所述待纠错文本序列中的错别字进行识别,得到错别字集合,基于预设候选字集合对所述错别字集合进行纠错处理,得到纠错后的目标文本序列;依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度;根据所述字形相似度和所述字相似度计算纠错判断因子,将所述纠错判断因子与预设阈值进行比对,根据比对结果确定所述待纠错文本序列的纠错结果。2.根据权利要求1所述的文本纠错方法,其特征在于,依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字,计算所述第一目标字和所述第二目标字之间的字形相似度以及字相似度的步骤包括:依次从所述目标文本序列中提取纠错后的第一目标字并获取与所述第一目标字对应的纠错前的第二目标字;基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,根据字形拆分结果计算所述第一目标字和所述第二目标字之间的字形相似度;获取所述第一目标字和所述第二目标字的向量表示,根据所述向量计算所述第一目标字和所述第二目标字之间的字相似度。3.根据权利要求2所述的文本纠错方法,其特征在于,基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,根据字形拆分结果计算所述第一目标字和所述第二目标字之间的字形相似度的步骤还包括:基于字形结构字典分别对所述第一目标字和所述第二目标字进行字形拆分,获得与所述第一目标字对应的第一字形集合以及与所述第二目标字对应的第二字形集合;根据所述第一字形集合和所述第二字形集合计算所述第一目标字和所述第二目标字之间的字形距离;根据所述字形距离计算所述第一目标字和所述第二目标字之间的字形相似度。4.根据权利要求3所述的文本纠错方法,其特征在于,所述字形距离按照如下公式进行:其中,p为所述第二目标字,q为所述第一目标字,d(p,q)为所述第一目标字和所述第二目标字之间的字形距离,n为字形数量,pi为所述第二目标字的第i个字形向量,qi为所述第一目标字的第i个字形向量;所述字形相似度按照如下公式进行:其中,p为所述第二目标字,q为所述第一目标字,s(p,q)为所述第一目标字和所述第二目标字之间的字形相似度,d(p,q)为所述第一目标字和所述第二目标字之间的字形距离。5.根据权利要求2所述的文本纠错方法,其特征在于,获取所述第一目标字和所述第二目标字的向量表示,根据所述向量计算所述第一目标字和所述第二目标字之间的字相似度的步骤还包括:2CN113657098A权利要求书2/2页获取与所述第一目标字对应的第一字向量、与所述第二目标字对应的第二字向量、所述第一目标字所在句子的第一句向量以及所述第二目标字所在句子的第二句向量;根据所述第一字向量和所述第二字向量计算所述第一目标字和所述第二目标字的字向量相似度;根据所述第一句向量和所述第二句向量计算所述第一目标字和所述第二目标字的句向量相似度;根据所述字向量相似度和所述句向量相似度计算所述第一目标字和所述第二目标字之间的字相似度