预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113762038A(43)申请公布日2021.12.07(21)申请号202110462515.3(22)申请日2021.04.27(71)申请人腾讯科技(深圳)有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人康战辉(74)专利代理机构北京康信知识产权代理有限责任公司11240代理人周婷婷(51)Int.Cl.G06K9/00(2006.01)G06K9/20(2006.01)G06K9/62(2006.01)权利要求书3页说明书14页附图6页(54)发明名称视频文本的识别方法和装置、存储介质及电子设备(57)摘要本发明公开了一种视频文本的识别方法和装置、存储介质及电子设备。其中,该方法包括:获取从待识别的目标视频中提取到的视频文本,其中,视频文本中包括与目标视频的各个视频帧分别对应的帧文本子集;从视频文本中确定出携带有停用词的目标帧文本子集;去除目标帧文本子集中携带的停用词,以将视频文本更新为候选文本;确定候选文本中任意两个视频帧各自对应的帧文本子集中的文本片段之间的编辑距离;根据编辑距离对候选文本进行整合,以得到为目标视频识别出的目标文本。本发明解决了由于文本提取工具忽略视频帧中的部分文字信息所导致的视频文本的内容识别准确度较低的技术问题。CN113762038ACN113762038A权利要求书1/3页1.一种视频文本的识别方法,其特征在于,包括:获取从待识别的目标视频中提取到的视频文本,其中,所述视频文本中包括与所述目标视频的各个视频帧分别对应的帧文本子集;从所述视频文本中确定出携带有停用词的目标帧文本子集;去除所述目标帧文本子集中携带的所述停用词,以将所述视频文本更新为候选文本;确定所述候选文本中任意两个视频帧各自对应的帧文本子集中的文本片段之间的编辑距离;根据所述编辑距离对所述候选文本进行整合,以得到为所述目标视频识别出的目标文本。2.根据权利要求1所述的方法,其特征在于,所述从所述视频文本中确定出携带有停用词的目标帧文本子集包括:在所述视频文本中查找与停用词词集中记录的参考停用词相匹配的停用词;在查找到所述停用词的情况下,将所述停用词所在的帧文本子集确定为所述目标帧文本子集。3.根据权利要求2所述的方法,其特征在于,在所述获取从待识别的目标视频中提取到的视频文本之前,还包括:确定参考视频在播放平台中的发布信息,其中,所述发布信息包括以下至少之一:所述参考视频在所述播放平台中注册的登录账号的水印、所述播放平台的平台标识;将所述发布信息添加到所述停用词词集中。4.根据权利要求2所述的方法,其特征在于,在所述获取从待识别的目标视频中提取到的视频文本之后,还包括:统计在所述视频文本的各个帧文本子集中每个文本片段的词频,其中,所述文本片段的词频用于指示所述文本片段在所述视频文本中的出现次数;获取各个所述文本片段的词频分别与所述目标视频中所包含的文本片段的总数量之间的比值;将所述比值大于第一阈值的目标文本片段添加到所述停用词词集中。5.根据权利要求1所述的方法,其特征在于,所述确定所述候选文本中任意两个视频帧各自对应的帧文本子集中的文本片段之间的编辑距离包括:从所述候选文本中确定出待处理的当前帧文本子集;遍历所述当前帧文本子集,获取当前待比对的第一文本片段;从所述候选文本中除所述当前帧文本子集之外的参考帧文本子集中,获取当前待比对的第二文本片段;计算所述第一文本片段与所述第二文本片段之间的编辑距离。6.根据权利要求5所述的方法,其特征在于,所述计算所述第一文本片段与所述第二文本片段之间的编辑距离包括:确定所述第一文本片段对应的第一字符串长度,以及所述第二文本片段对应的第二字符串长度;基于所述第一字符串长度与所述第二字符串长度构建计算矩阵,其中,以所述第一文本片段中包含的各个第一字符,以及所述第二文本片段中包含的各个第二字符作为所述计2CN113762038A权利要求书2/3页算矩阵的矩阵参考元素,所述矩阵参考元素为所述计算矩阵中的首行元素或首列元素;依序遍历所述计算矩阵中包含的各个字符,基于所述第一字符确定出当前待计算的第一字符串,并基于所述第二字符确定出当前待计算的第二字符串;计算出所述第一字符串与所述第二字符串之间的字符串距离,其中,所述第一文本片段与所述第二文本片段之间的编辑距离包括多个所述字符串距离。7.根据权利要求5所述的方法,其特征在于,在所述从所述候选文本中除所述当前帧文本子集之外的参考帧文本子集中,获取当前待比对的第二文本片段之前,还包括:从所述候选文本中确定出除所述当前帧文本子集之外的候选帧文本子集;在所述候选帧文本子集尚未被用于计算编辑距离的情况下,将所述候选帧文本子集确定为所述参考帧文本