预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113962211A(43)申请公布日2022.01.21(21)申请号202111258033.2(22)申请日2021.10.27(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人王伟杰王伟吴越(74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙)11413代理人孙翠贤马敬(51)Int.Cl.G06F40/194(2020.01)权利要求书3页说明书13页附图5页(54)发明名称一种多文本差异识别方法、装置以及电子设备(57)摘要本公开提供了一种多文本差异识别方法,涉及计算机技术领域,尤其涉及文本识别技术领域,具体涉及一种多文本差异识别方法、装置以及电子设备。具体实现方案为:确定针对音频的标准文本,以及待识别差异的多个目标文本;针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息;其中,所述第一元素为属于更改类型的元素;基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素;若所确定的目标元素相同,则在所述其他文本中,对所确定的目标元素进行第一预定标注。CN113962211ACN113962211A权利要求书1/3页1.一种多文本差异识别方法,包括:确定针对音频的标准文本,以及待识别差异的多个目标文本;其中,每一目标文本为所述音频的字幕文本;针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息;其中,所述第一元素为属于更改类型的元素;基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素;其中,所述其他文本为多个目标文本中除该目标文本以外的一文本;若所确定的目标元素相同,则在所述其他文本中,对所确定的目标元素进行第一预定标注。2.根据权利要求1所述的方法,所述方法还包括:在该目标文本中,对所述差异元素所包括的各元素进行第二预定标注;其中,所述第二预定标注不同于所述第一预定标注。3.根据权利要求1或2所述的方法,其中,所述基于所述第一元素的上下文信息,从所述标准文本和其他文本中,分别确定与所述第一元素位置匹配的目标元素,包括:从所述标准文本中,检测与所述第一元素的上文信息匹配的元素的第一位置,以及与所述第一元素的下文信息相匹配的元素的第二位置;并确定所述第一位置和第二位置之间的位置上的元素,作为所述标准文本中,与所述第一元素位置匹配的目标元素;从所述其他文本中,检测与所述第一元素的上文信息匹配的元素的第三位置,以及与所述第一元素的下文信息相匹配的元素的第四位置;确定所述第三位置和所述第四位置之间的位置上的元素,作为所述其他文本中,与所述第一元素位置匹配的目标元素。4.根据权利要求1或2所述的方法,其中,所述从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息之前,还包括:对所述差异元素所包括的各元素进行合并处理;其中,所述合并处理包括将位置连续的元素进行合并。5.根据权利要求1或2所述的方法,其中,所述针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素之前,所述方法还包括:检测当前的标注模式;其中,所述标注模式为字符标注模式或标点标注模式;针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素,包括:针对每一目标文本,若检测到标注模式为字符标注模式,则识别该目标文本相对于所述标准文本的、关于字符的差异,得到差异元素;若检测到标注模式为标点标注模式,则识别该目标文本相对于所述标准文本的、关于标点的差异,得到差异元素。6.根据权利要求1或2所述的方法,还包括:识别所述标准文本中的各个专有名词,以及相对应的索引位置;利用所述各个专有名词相对应的索引位置,查找针对所述各个专有名词的上下文信息;2CN113962211A权利要求书2/3页基于所述各个专有名词的上下文信息,从所述每一目标文本中,分别确定与所述各个专有名词位置匹配的目标专有名词;若所确定的目标专有名词中包括第二预定标注的元素,则判定该目标专有名词属于识别有误的目标专有名词。7.一种多文本差异识别装置,包括:第一确定模块,用于确定针对音频的标准文本,以及待识别差异的多个目标文本;其中,每一目标文本为所述音频的字幕文本;第一识别模块,用于针对每一目标文本,识别该目标文本相对于所述标准文本的差异,得到差异元素;第二确定模块,用于从该目标文本中,确定所述差异元素所包括的第一元素的上下文信息;其中,所述第一元素为属于更改类型的元素;第一匹配模块,用于基于