一种多文本差异识别方法、装置以及电子设备-豆柴文库

一种多文本差异识别方法、装置以及电子设备.pdf

2023-07-24

10金币

883KB

22页

猫巷****正德

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113962211A(43)申请公布日2022.01.21(21)申请号202111258033.2(22)申请日2021.10.27(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人王伟杰王伟吴越(74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙)11413代理人孙翠贤马敬(51)Int.Cl.G06F40/194(2020.01)权利要求书3页说明书13页附图5页(54)发明名称一种多文本差异识别方法、装置以及电子设备(57)摘要本公开提供了一种多文本差异识别方法，涉及计算机技术领域，尤其涉及文本识别技术领域，具体涉及一种多文本差异识别方法、装置以及电子设备。具体实现方案为：确定针对音频的标准文本，以及待识别差异的多个目标文本；针对每一目标文本，识别该目标文本相对于所述标准文本的差异，得到差异元素；从该目标文本中，确定所述差异元素所包括的第一元素的上下文信息；其中，所述第一元素为属于更改类型的元素；基于所述第一元素的上下文信息，从所述标准文本和其他文本中，分别确定与所述第一元素位置匹配的目标元素；若所确定的目标元素相同，则在所述其他文本中，对所确定的目标元素进行第一预定标注。CN113962211ACN113962211A权利要求书1/3页1.一种多文本差异识别方法，包括：确定针对音频的标准文本，以及待识别差异的多个目标文本；其中，每一目标文本为所述音频的字幕文本；针对每一目标文本，识别该目标文本相对于所述标准文本的差异，得到差异元素；从该目标文本中，确定所述差异元素所包括的第一元素的上下文信息；其中，所述第一元素为属于更改类型的元素；基于所述第一元素的上下文信息，从所述标准文本和其他文本中，分别确定与所述第一元素位置匹配的目标元素；其中，所述其他文本为多个目标文本中除该目标文本以外的一文本；若所确定的目标元素相同，则在所述其他文本中，对所确定的目标元素进行第一预定标注。2.根据权利要求1所述的方法，所述方法还包括：在该目标文本中，对所述差异元素所包括的各元素进行第二预定标注；其中，所述第二预定标注不同于所述第一预定标注。3.根据权利要求1或2所述的方法，其中，所述基于所述第一元素的上下文信息，从所述标准文本和其他文本中，分别确定与所述第一元素位置匹配的目标元素，包括：从所述标准文本中，检测与所述第一元素的上文信息匹配的元素的第一位置，以及与所述第一元素的下文信息相匹配的元素的第二位置；并确定所述第一位置和第二位置之间的位置上的元素，作为所述标准文本中，与所述第一元素位置匹配的目标元素；从所述其他文本中，检测与所述第一元素的上文信息匹配的元素的第三位置，以及与所述第一元素的下文信息相匹配的元素的第四位置；确定所述第三位置和所述第四位置之间的位置上的元素，作为所述其他文本中，与所述第一元素位置匹配的目标元素。4.根据权利要求1或2所述的方法，其中，所述从该目标文本中，确定所述差异元素所包括的第一元素的上下文信息之前，还包括：对所述差异元素所包括的各元素进行合并处理；其中，所述合并处理包括将位置连续的元素进行合并。5.根据权利要求1或2所述的方法，其中，所述针对每一目标文本，识别该目标文本相对于所述标准文本的差异，得到差异元素之前，所述方法还包括：检测当前的标注模式；其中，所述标注模式为字符标注模式或标点标注模式；针对每一目标文本，识别该目标文本相对于所述标准文本的差异，得到差异元素，包括：针对每一目标文本，若检测到标注模式为字符标注模式，则识别该目标文本相对于所述标准文本的、关于字符的差异，得到差异元素；若检测到标注模式为标点标注模式，则识别该目标文本相对于所述标准文本的、关于标点的差异，得到差异元素。6.根据权利要求1或2所述的方法，还包括：识别所述标准文本中的各个专有名词，以及相对应的索引位置；利用所述各个专有名词相对应的索引位置，查找针对所述各个专有名词的上下文信息；2CN113962211A权利要求书2/3页基于所述各个专有名词的上下文信息，从所述每一目标文本中，分别确定与所述各个专有名词位置匹配的目标专有名词；若所确定的目标专有名词中包括第二预定标注的元素，则判定该目标专有名词属于识别有误的目标专有名词。7.一种多文本差异识别装置，包括：第一确定模块，用于确定针对音频的标准文本，以及待识别差异的多个目标文本；其中，每一目标文本为所述音频的字幕文本；第一识别模块，用于针对每一目标文本，识别该目标文本相对于所述标准文本的差异，得到差异元素；第二确定模块，用于从该目标文本中，确定所述差异元素所包括的第一元素的上下文信息；其中，所述第一元素为属于更改类型的元素；第一匹配模块，用于基于

相关资料

一种多文本差异识别方法、装置以及电子设备.pdf

本公开提供了一种多文本差异识别方法，涉及计算机技术领域，尤其涉及文本识别技术领域，具体涉及一种多文本差异识别方法、装置以及电子设备。具体实现方案为：确定针对音频的标准文本，以及待识别差异的多个目标文本；针对每一目标文本，识别该目标文本相对于所述标准文本的差异，得到差异元素；从该目标文本中，确定所述差异元素所包括的第一元素的上下文信息；其中，所述第一元素为属于更改类型的元素；基于所述第一元素的上下文信息，从所述标准文本和其他文本中，分别确定与所述第一元素位置匹配的目标元素；若所确定的目标元素相同，则在所述其

2023-07-24

883KB

文本识别方法、装置、电子设备以及存储介质.pdf

本说明书提供文本识别方法、装置、电子设备以及存储介质，其中所述文本识别方法包括：获取多个文本的文本集；提取文本集中文本的主题关键词，并获取从文本集中至少一个文本中提取的实际主题关键词；确定主题关键词在文本集中每个文本的第一分布，以及实际主题关键词在文本集中每个文本的第二分布；将携带第一分布和第二分布的文本集中文本输入分类器进行识别，获得文本集中文本的关键句和非关键句；通过文本识别方法，能够快速准确的获取文本的关键句和非关键句，通过对文本的非关键句进行清洗，方便了对文本的关键句进行标注，提高了知识图谱的构建

2023-11-15

705KB

一种文本信息的识别方法以及相关装置.pdf

本申请公开了一种文本信息的识别方法以及相关装置，应用于人工智能的自然语言处理技术。通过获取预设语料；然后基于预设规则从预设语料中提取对应于目标类型的多个正相关词。进一步的调用预设语料和多个正相关词对预训练模型进行训练，以得到第一识别模型；并基于第一识别模型进行调整得到第二识别模型；进而基于第二识别模型中进行文本识别。从而实现高效且准确的文本识别过程，采用与目标类型关联的预设语料以及补充的正相关词同时执行掩蔽操作，保证了识别模型对于目标类型关联词汇的识别能力，进而提高了文本信息识别的准确性。

2023-07-25

1.2MB

多模态模型训练以及图像识别方法、装置、电子设备.pdf

本发明揭示了一种多模态模型训练以及图像识别方法、装置、电子设备，涉及图像识别领域。该方法包括：获取样本图像以及样本图像对应的文字特征向量；将样本图像输入至初始多模态模型的特征提取网络，生成样本图像对应的图像特征向量。其中特征提取网络用于对样本图像进行编码，并根据待生成特征与已生成特征之间的关联关系生成图像特征向量；将文字特征向量以及图像特征向量输入至初始多模态模型的变换器结构中，输出样本图像对应的候选文字；根据文字特征向量对应的目标文字以及候选文字，更新初始多模态模型的参数，以确定目标多模态模型。采用该方

2023-07-24

1.8MB

文本识别方法、装置及电子设备.pdf

本说明书实施例公开了一种文本识别方法、装置及电子设备，其实质技术方案为，通过对待识别对象中的各行文字进行文字识别，可以基于识别出的各行文字分别得到文本块。针对文本块提取出所述文本块的块特征，判断相邻两行文本块的块特征是否达到预设特征条件，所述预设特征条件为利用训练样本确立的在相邻两行文本块属于同一文本信息时，所述相邻两行文本块的块特征所满足的特征条件。根据判断结果确定对所述相邻两行所述文本块的操作，所述操作包括合并成文本信息和不合并中的一种。

2023-05-25

929KB