预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113722527A(43)申请公布日2021.11.30(21)申请号202110233728.9G06N3/04(2006.01)(22)申请日2021.03.03(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人李岩谌丹璐毛懿荣王汉杰(74)专利代理机构中国专利代理(香港)有限公司72001代理人孙之刚陈岚(51)Int.Cl.G06F16/583(2019.01)G06K9/46(2006.01)G06K9/62(2006.01)G06F16/35(2019.01)G06F40/289(2020.01)权利要求书3页说明书15页附图8页(54)发明名称针对媒体生成文本的方法、装置、计算设备和存储介质(57)摘要本申请的实施例提供了一种针对媒体生成文本的方法、装置、计算设备和存储介质。该方法包括:获取目标媒体;解析所述目标媒体的内容以获得所述目标媒体的媒体标签;利用经训练的文本分类模型对所述媒体标签进行分类,以得到与所述媒体标签对应的至少一个文本类别,其中该经训练的文本分类模型是基于文本集中的至少一部分文本训练得到的,所述文本集中的每个文本具有至少一个文本标签;以及基于所述至少一个文本类别和所述文本集生成针对所述目标媒体的目标文本。CN113722527ACN113722527A权利要求书1/3页1.一种针对媒体生成文本的方法,包括:获取目标媒体;解析所述目标媒体的内容以获得所述目标媒体的媒体标签;利用经训练的文本分类模型对所述媒体标签进行分类,以得到与所述媒体标签对应的至少一个文本类别,其中所述经训练的文本分类模型是基于文本集中的至少一部分文本训练得到的,所述文本集中的每个文本具有至少一个文本标签;以及基于所述至少一个文本类别和所述文本集生成针对所述目标媒体的目标文本。2.根据权利要求1所述的方法,其中所述目标媒体包括目标视频,并且其中解析所述目标媒体的内容以获得所述目标媒体的媒体标签包括:从所述目标视频采集多帧图像;对所述多帧图像中的每帧图像进行特征提取,以得到与每帧图像对应的至少一个第一标签;将所述多帧图像对应的全部第一标签作为候选标签加入候选标签组,以及基于候选标签组中的候选标签获得所述目标媒体的媒体标签。3.根据权利要求2所述的方法,其中所述基于候选标签组中的候选标签获得所述目标媒体的媒体标签包括:确定每个候选标签在所述候选标签组中的出现频率;从所述候选标签组中去除出现频率低于频率阈值的候选标签,以得到所述媒体标签。4.根据权利要求2所述的方法,其中所述解析所述目标媒体的内容以获得所述目标媒体的媒体标签还包括:从所述目标视频采集音频;对所述音频进行特征提取,获得至少一个第二标签;将所述至少一个第二标签作为候选标签加入所述候选标签组。5.根据权利要求2所述方法,其中所述解析所述目标媒体的内容以获得所述目标媒体的媒体标签还包括:从所述目标视频采集描述文字;对所述描述文字特征提取,获得至少一个第三标签;将所述至少一个第三标签作为候选标签加入所述候选标签组。6.根据权利要求1所述的方法,其中所述文本包括诗词、成语、名言、歌词和歇后语中的至少一种,并且其中所述方法还包括:通过如下训练步骤得到所述经训练的文本分类模型,所述训练步骤包括:基于所述文本集中的文本确定训练集,其中,所述训练集中的训练样本包括文本集中的文本的原文以及与所述原文对应的原文解释,并且所述原文和与所述原文对应的原文解释具有相同的文本标签;从所述训练集中获取多个具有文本标签的训练样本;利用所述多个具有文本标签的训练样本以及相应的文本标签对所述文本分类模型进行训练,直至所述文本分类模型对应的损失函数最小,其中所述损失函数包括针对所述训练样本的文本标签的交叉熵损失。7.根据权利要求1所述的方法,其中所述基于所述至少一个文本类别和所述文本集生2CN113722527A权利要求书2/3页成针对所述目标媒体的目标文本包括:从所述至少一个文本类别中确定具有最高置信度的文本类别;对所述具有最高置信度的文本类别进行向量化以得到第一文本类别向量;基于所述第一文本类别向量和所述文本集中每个文本对应的文本向量从所述文本集确定针对所述目标媒体的目标文本,其中所述文本向量是通过对所述文本集中的每个文本具有的所述至少一个文本标签进行向量化得到的。8.根据权利要求7所述的方法,其中所述方法包括:以如下方式通过对所述文本集中的每个文本具有的所述至少一个文本标签进行向量化得到所述文本向量:以与对所述具有最高置信度的文本类别进行向量化的相同方式对所述至少一个文本标签进行向量化,以得到至少一个文本标签向量,对所述至少一个文本标签向量进行平均运算以得到所