预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115098730A(43)申请公布日2022.09.23(21)申请号202210796905.9G06V30/19(2022.01)(22)申请日2022.07.05(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人杨虎李国豪冯知凡柴春光(74)专利代理机构中科专利商标代理有限责任公司11021专利代理师吕朝蕙(51)Int.Cl.G06F16/783(2019.01)G06F40/289(2020.01)G06F40/30(2020.01)G06N3/08(2006.01)G06V10/82(2022.01)权利要求书3页说明书14页附图8页(54)发明名称获取视频数据的方法、深度学习模型的训练方法和装置(57)摘要本公开提供了一种获取视频数据的方法、深度学习模型的训练方法、装置、设备、介质和产品,涉及知识图谱、自然语言处理、深度学习等人工智能技术领域。获取视频数据的方法包括:处理与第一类型视频数据相关联的第一文本数据,得到候选字词和与候选字词对应的字词类别;基于字词类别,从候选字词中确定目标字词;基于目标字词,从第二类型视频数据中获取与第一类型视频数据相关联的目标视频数据。CN115098730ACN115098730A权利要求书1/3页1.一种获取视频数据的方法,包括:处理与第一类型视频数据相关联的第一文本数据,得到候选字词和与所述候选字词对应的字词类别;基于所述字词类别,从所述候选字词中确定目标字词;以及基于所述目标字词,从第二类型视频数据中获取与所述第一类型视频数据相关联的目标视频数据。2.根据权利要求1所述的方法,其中,所述处理与第一类型视频数据相关联的第一文本数据,得到候选字词和与所述候选字词对应的字词类别包括:将所述第一文本数据的文本类型从第一文本类型转换为第二文本类型,得到转换后的第一文本数据;以及利用序列标注方式处理所述转换后的第一文本数据,得到所述候选字词和与所述候选字词对应的所述字词类别。3.根据权利要求2所述的方法,其中,所述基于所述目标字词,从第二类型视频数据中获取与所述第一类型视频数据相关联的目标视频数据包括:获取与所述第二类型视频数据相关联的第二文本数据,其中,所述第二文本数据的文本类型为所述第二文本类型;以及基于所述目标字词和所述第二文本数据,从所述第二类型视频数据中获取所述目标视频数据,其中,与所述目标视频数据对应的第二文本数据与所述目标字词相匹配。4.根据权利要求1所述的方法,其中,所述字词类别包括第一字词类别;所述处理与第一类型视频数据相关联的第一文本数据,得到候选字词和与所述候选字词对应的字词类别包括:对所述第一文本数据进行分词处理,得到所述候选字词;以及对所述候选字词进行分类,得到与所述候选字词对应的所述第一字词类别。5.根据权利要求1或4所述的方法,其中,所述字词类别包括第二字词类别;所述处理与第一类型视频数据相关联的第一文本数据,得到候选字词和与所述候选字词对应的字词类别包括:对所述第一文本数据进行分词处理,得到所述候选字词;以及对所述候选字词进行语义理解,得到与所述候选字词对应的所述第二字词类别。6.根据权利要求5所述的方法,其中,所述对所述候选字词进行语义理解,得到与所述候选字词对应的所述第二字词类别包括:对所述候选字词进行语义理解,得到与所述候选字词对应的标准字词;从树结构中确定与所述标准字词相关联的目标分支结构,其中,所述树结构包括P个结点,所述P个结点对应于P个类别,所述目标分支结构包括Q个结点,所述Q个结点对应于Q个类别,P为大于1的整数,Q为小于等于P的整数;以及将所述Q个类别中的至少一个类别确定为所述第二字词类别。7.根据权利要求5所述的方法,其中,所述基于所述字词类别,从所述候选字词中确定目标字词包括:基于所述第一字词类别,从所述候选字词中确定第一目标字词,其中,所述候选字词包括所述第一目标字词和剩余候选字词;2CN115098730A权利要求书2/3页响应于确定所述第一目标字词的数量少于预设数量,基于所述剩余候选字词的所述第二字词类别,从所述剩余候选字词中确定第二目标字词;以及将所述第一目标字词和所述第二目标字词,确定为所述目标字词。8.根据权利要求1‑3中任意一项所述的方法,其中,与所述目标字词对应的所述字词类别包括以下至少一个:名词类别、场景类别、感官特征类别。9.根据权利要求1‑8中任意一项所述的方法,其中,所述基于所述字词类别,从所述候选字词中确定目标字词包括:从所述候选字词中删除字词类别为第三字词类别的候选字词,将剩余的候选字词确定为所述目标字词,其中,所述第三字词类别包括以下至少一项:数量词类别、助词类别、介词类别、修饰词类别