预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113836874A(43)申请公布日2021.12.24(21)申请号202111089181.6(22)申请日2021.09.16(71)申请人北京小米移动软件有限公司地址100085北京市海淀区西二旗中路33号院6号楼8层018号申请人北京小米松果电子有限公司(72)发明人侯冉冉王文涛秦斌(74)专利代理机构北京博思佳知识产权代理有限公司11415代理人王茹(51)Int.Cl.G06F40/166(2020.01)G06F40/295(2020.01)G06F40/30(2020.01)G06K9/62(2006.01)权利要求书2页说明书14页附图6页(54)发明名称文本纠错方法及装置(57)摘要本公开涉及文本识别技术领域,具体涉及一种文本纠错方法及装置。一种文本纠错方法,包括:从文本序列中识别得到待纠错实体;根据所述待纠错实体,从目标知识库中确定预设数量的候选实体;根据所述待纠错实体与每个候选实体的相似度,对所述待纠错实体执行预设处理。本公开实施方式,提高文本纠错效率和准确性。CN113836874ACN113836874A权利要求书1/2页1.一种文本纠错方法,其特征在于,包括:从文本序列中识别得到待纠错实体;根据所述待纠错实体,从目标知识库中确定预设数量的候选实体;根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述待纠错实体,从目标知识库中确定预设数量的候选实体,包括:确定所述待纠错实体与所述目标知识库中的各个实体的第一相似度;基于所述待纠错实体与所述各个实体的第一相似度由高到低排序,得到相似度序列;确定所述相似度序列中前预设数量的第一相似度对应的实体为所述候选实体。3.根据权利要求1所述的方法,其特征在于,所述根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理,包括:确定所述待纠错实体与每个候选实体的第二相似度;在至少一个候选实体对应的所述第二相似度不小于预设阈值的情况下,确定最大第二相似度对应的候选实体为目标实体;根据所述目标实体对所述待纠错实体进行改写。4.根据权利要求3所述的方法,其特征在于,所述确定所述待纠错实体与每个候选实体的第二相似度,包括:对于任意一个候选实体,对所述待纠错实体进行特征提取得到第一语义特征,对所述候选实体进行特征提取得到第二语义特征;根据所述第一语义特征和所述第二语义特征,得到所述待纠错实体与所述候选实体的所述第二相似度。5.根据权利要求3所述的方法,其特征在于,所述根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理,还包括:在每个候选实体的第二相似度均小于预设阈值的情况下,确定所述待纠错实体为正确实体。6.根据权利要求3所述的方法,其特征在于,所述在至少一个候选实体对应的所述第二相似度不小于预设阈值的情况下,确定最大第二相似度对应的候选实体为目标实体,包括:在至少一个候选实体的第二相似度不小于预设阈值的情况下,根据所述待纠错实体,从预设知识库中确定匹配实体;所述预设知识库不同于所述目标知识库;在所述待纠错实体与所述匹配实体的匹配度不大于预设匹配度阈值的情况下,确定最大第二相似度对应的候选实体为目标实体;和/或,在所述待纠错实体与所述匹配实体的匹配度大于预设匹配度阈值的情况下,确定所述待纠错实体为正确实体。7.根据权利要求1所述的方法,其特征在于,所述从文本序列中识别得到待纠错实体包括:将所述文本序列输入预先训练的文本识别网络,得到所述文本识别网络输出的所述待纠错实体;和/或,2CN113836874A权利要求书2/2页所述根据所述待纠错实体与每个候选实体的相似度,对所述待纠错实体执行预设处理,包括:对于每个候选实体,将所述待纠错实体和所述候选实体输入预先训练的语义匹配网络,得到所述语义匹配网络输出的所述待纠错实体与每个候选实体的相似度。8.根据权利要求1至7任一项所述的方法,其特征在于,在所述从文本序列中识别得到待纠错实体之前,所述方法还包括:获取通过麦克风拾取的音频信息;根据所述音频信息处理到所述文本序列。9.根据权利要求1至7任一项所述的方法,其特征在于,所述待纠错实体为视频名称,所述目标知识库为视频库。10.一种文本纠错装置,其特征在于,包括:文本识别模块,被配置为从文本序列中识别得到待纠错实体;索引模块,被配置为根据所述待纠错实体,从目标知识库中确定预设数量的候选实体;文本纠错模块,被配置为根据所述待纠错实体与每个所述候选实体的相似度,对所述待纠错实体执行预设处理。11.一种电子设备,其特征在于,包括:处理器;以及存储器,存储有能够被所述处理器读取的计算机指令,当所述