预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113743094A(43)申请公布日2021.12.03(21)申请号202111012472.5(22)申请日2021.08.31(71)申请人上海携宁计算机科技股份有限公司地址200030上海市徐汇区乐山路33号403室(72)发明人张浩波(74)专利代理机构上海晨皓知识产权代理事务所(普通合伙)31260代理人成丽杰(51)Int.Cl.G06F40/232(2020.01)G06F40/289(2020.01)G06F40/242(2020.01)G06F16/33(2019.01)G06F16/31(2019.01)权利要求书3页说明书19页附图4页(54)发明名称文本纠错方法、电子设备及计算机可读存储介质(57)摘要本申请实施例涉及计算机技术领域,公开了一种文本纠错方法、电子设备及计算机可读存储介质。对待纠错词汇按字粒度进行切分,得到若干检索片段;其中,检索片段的类型为单个字母或汉字拼音;在预设的索引词元集合中,确定与检索片段一致的目标索引词元;其中,索引词元集合中的索引词元的类型包括单个字母和汉字拼音;根据目标索引词元在预设的索引中进行检索,得到和目标索引词元顺序一致的若干专有名词作为候选词;根据待纠错词汇的字频和候选词的字频计算编辑距离,对候选词打分,得到候选词对应的分数;将分数最高的候选词作为纠错结果,替换待纠错词汇,可以显著降低文本纠错的成本,大幅提升文本纠错的准确度,同时提升文本纠错的精度。CN113743094ACN113743094A权利要求书1/3页1.一种文本纠错方法,其特征在于,包括:对待纠错词汇按字粒度进行切分,得到若干检索片段;其中,所述检索片段的类型为单个字母或汉字拼音;在预设的索引词元集合中,确定与所述检索片段一致的目标索引词元;其中,所述索引词元集合中的索引词元的类型包括单个字母和汉字拼音;根据所述目标索引词元在预设的索引中进行检索,得到和所述目标索引词元顺序一致的若干专有名词作为候选词;其中,所述索引为预设的所述索引词元到所述专有名词之间的映射关系的集合;根据所述待纠错词汇的字频和所述候选词的字频计算编辑距离,对所述候选词打分,得到所述候选词对应的分数;将分数最高的候选词作为纠错结果,替换所述待纠错词汇。2.根据权利要求1所述的文本纠错方法,其特征在于,所述索引词元集合和所述索引通过以下步骤获取:获取预设的专有名词集合,所述专有名词集合中包括若干个所述专有名词;遍历所述专有名词,对所述专有名词按字粒度进行切分,得到若干索引片段;其中,所述索引片段的类型包括单个字母和汉字拼音,所述单个字母包括原始字母和汉字字母,所述原始字母为所述专有名词中本身存在的字母,所述汉字字母为所述专有名词中的每个汉字的拼音的首字母,所述汉字拼音包括原始拼音和近似拼音,所述原始拼音为所述专有名词中的每个汉字本身的拼音,所述近似拼音为根据所述原始拼音从预设的近音字典中确定的近似音;将所述索引片段作为所述索引词元,得到所述索引词元集合,并构建所述索引词元到所述专有名词之间的映射关系,得到所述索引。3.根据权利要求1或2所述的文本纠错方法,其特征在于,所述索引词元集合中的索引词元的类型还包括单个汉字,所述根据所述待纠错词汇的字频和所述候选词的字频计算编辑距离,对所述候选词打分,得到所述候选词对应的分数,包括:对所述待纠错词汇按字粒度进行切分,得到若干打分片段,其中,所述打分片段的类型为以下任意一种:单个字母、汉字拼音或单个汉字;统计所述索引词元集合中各索引词元的字频,并根据所述各索引词元的字频,确定第一目标字的字频和第二目标字的字频;其中,所述第一目标字为所述打分片段,所述第二目标字为所述打分片段在所述候选词中对应的索引词元;根据所述第一目标字的字频、所述第二目标字的字频和预设的成本函数,计算所述第一目标字与所述第二目标字之间的编辑成本;根据所述编辑成本,计算所述待纠错词汇与所述候选词之间的编辑距离;根据所述编辑距离,计算所述待纠错词汇与所述候选词之间的编辑相似度;根据所述编辑相似度对所述候选词进行打分,得到所述候选词对应的分数。4.根据权利要求3所述的文本纠错方法,其特征在于,所述统计所述索引词元集合中各索引词元的字频,包括:获取所述索引词元集合对应的专有名词集合中各专有名词的初始词频;根据历史纠错记录,确定各专有名词在所述历史纠错记录中出现的次数作为所述专有2CN113743094A权利要求书2/3页名词的纠错词频;根据所述初始词频和所述纠错词频确定所述专有名词的累计词频;获取各索引词元对应的若干专有名词的若干累计词频,对所述若干累计词频统计求和,得到所述索引词元的字频。5.根据权利要求3所述的文本纠错方法,其特征在于,所述根据所述第