预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113919327A(43)申请公布日2022.01.11(21)申请号202010647975.9(22)申请日2020.07.07(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人包祖贻李辰王睿(74)专利代理机构上海百一领御专利代理事务所(普通合伙)31243代理人陈贞健邵栋(51)Int.Cl.G06F40/232(2020.01)权利要求书3页说明书12页附图2页(54)发明名称文本纠错方法、设备以及计算机可读介质(57)摘要本申请提供了一种文本纠错方法,该方案用于对表格等文字载体中的二维文本进行纠错,由于表格等文字载体中,文本的位置和内容相对固定,目标单元格位置处的文本与邻接单元格位置处的文本会根据实际的应用场景呈现一定的关联性,而候选文本的排序特征信息至少包括了所述候选文本与邻接文本之间的共现特征信息,据此计算的排序分值能够表征候选文本出现在目标单元格中的可能性大小,因此可以根据可能性大小准确地对目标单元格位置处的文本进行纠错。CN113919327ACN113919327A权利要求书1/3页1.一种文本纠错方法,其中,该方法包括:获取目标单元格的原始文本和邻接单元格的邻接文本,所述邻接单元格是与目标单元格相邻的单元格;根据知识库获取所述原始文本对应的纠错文本,并将所述原始文本和纠错文本确定为候选文本;获取所述候选文本的排序特征信息,所述排序特征信息包括所述候选文本与邻接文本之间的共现特征信息;根据所述排序特征信息计算所述候选文本的排序分值,并将排序分值最高的候选文本确定为所述目标单元格的文本。2.根据权利要求1所述的方法,其中,获取目标单元格的原始文本和邻接单元格的邻接文本,包括:对待处理的文本进行识别,获取文本内容以及所述文本内容对应的位置信息;根据所述位置信息确定目标单元格和邻接单元格;将所述目标单元格中的文本内容确定为原始本文;将所述邻接单元格中的文本内容确定为邻接文本。3.根据权利要求1所述的方法,其中,根据知识库确定所述原始文本对应的纠错文本,包括:根据发音相似度和/或字形相似度获取原始文本对应的相似文本集;根据知识库从所述相似文本集中,确定所述原始文本对应的纠错文本。4.根据权利要求1所述的方法,其中,获取所述候选文本的排序特征信息,包括:基于语料库统计候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数;根据候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数,计算所述候选文本与邻接文本之间的共现特征信息;将所述共现特征信息确定为排序特征信息。5.根据权利要求1所述的方法,其中,所述排序特征信息还包括所述候选文本与原始文本之间的相似特征信息;获取所述候选文本的排序特征信息,包括:基于语料库统计候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数;根据候选文本与邻接文本之间的共现次数、候选文本的出现次数以及邻接文本的出现次数,计算所述候选文本与邻接文本之间的共现特征信息;根据所述候选文本与原始文本之间的相似程度,确定所述候选文本与原始文本之间相似特征信息;将所述相似特征信息和共现特征信息确定为排序特征信息。6.根据权利要求5所述的方法,其中,所述相似特征信息包括发音相似度、字形相似度和编辑距离中的至少一种。7.根据权利要求1至6中任一项所述的方法,其中,所述邻接单元格包括位于目标单元格上方的上方邻接单元格、位于目标单元格下方的下方邻接单元格、位于目标单元格左方2CN113919327A权利要求书2/3页的左方邻接单元格、位于目标单元格右方的右方邻接单元格、位于目标单元格左上方的左上邻接单元格、位于目标单元格右上方的右上邻接单元格、位于目标单元格左下方的左下邻接单元格以及位于目标单元格右下方的右下邻接单元格;所述排序特征信息包括所述候选文本分别与上方邻接单元格、下方邻接单元格、左方邻接单元格、右方邻接单元格、左上邻接单元格、右上邻接单元格、左下邻接单元格和右下邻接单元格中的邻接文本之间的共现特征信息。8.根据权利要求1所述的方法,其中,根据所述排序特征信息计算所述候选文本的排序分值,包括:根据预设的权重,对所述排序特征信息进行加权计算,获取所述候选文本的排序分值。9.一种文本纠错设备,其中,该设备包括:识别解析模块,用于获取目标单元格的原始文本和邻接单元格的邻接文本,所述邻接单元格是与目标单元格相邻的单元格;候选生成模块,用于根据知识库获取所述原始文本对应的纠错文本,并将所述原始文本和纠错文本确定为候选文本;特征抽取模块,用于获取所述候选文本的排序特征信息,所述排序特征信息包括所述候选文本与邻接文本之间的共现