预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111523575A(43)申请公布日2020.08.11(21)申请号202010284993.5(22)申请日2020.04.13(71)申请人中南大学地址410000湖南省长沙市岳麓区麓山南路932号(72)发明人邓晓衡张桦林黄文俊赵敏(74)专利代理机构长沙轩荣专利代理有限公司43235代理人黄艺平(51)Int.Cl.G06K9/62(2006.01)G06N20/00(2019.01)G06F16/9535(2019.01)G06F16/735(2019.01)权利要求书6页说明书14页附图2页(54)发明名称基于短视频多模态特征的短视频推荐模型(57)摘要本发明提供了一种基于短视频多模态特征的短视频推荐模型,包括:步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维。本发明考虑到不同模态的特征数据对用户产生的用户行为的影响效果是不同的,并利用隐马尔可夫模型去学习短视频的不同模态数据对于用户的影响比重,基于影响比重将短视频的多模态特征映射到统一向量空间进行融合,获得用多模态数据特征表示的短视频特征数据。CN111523575ACN111523575A权利要求书1/6页1.一种基于短视频多模态特征的短视频推荐模型,其特征在于,包括:步骤1,对短视频标题特征,使用TF-IDF方法进行特征提取,使用PCA降维算法将短视频标题特征向量维度降维到k维;步骤2,提取短视频内容的128维原始特征,使用PCA降维算法将短视频内容特征向量维度降维到k维;步骤3,提取短视频背景音乐的128维原始特征,使用PCA降维算法将短视频背景音乐特征向量维度降维到k维;步骤4,基于用户的行为数据获取到用户的评分数据矩阵;步骤5,将获取到的用户的评分数据矩阵作为观测序列输入到隐马尔可夫模型中进行训练,获取到最优模型的观测概率矩阵,基于观测概率矩阵计算短视频不同模态特征的对短视频的影响比重;步骤6,基于获取到的短视频不同模态特征的对短视频的影响比重,分别将获取到的短视频标题特征矩阵、短视频内容特征矩阵和短视频背景音乐特征矩阵基于影响比重的融合在一起形成短视频多模态特征融合矩阵;步骤7,提取短视频的人脸特征、短视频和作者的热度特征和短视频的时间特征,作为手工提取特征矩阵;步骤8,将融合之后的短视频多模态特征融合矩阵和获得的手工提取特征矩阵输入到不同的机器学习模型中去训练,并基于模型特点将模型进行融合,输出最终的推荐结果;步骤9,使用AUC作为评价指标,评价推荐结果的可靠性。2.根据权利要求1所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤1具体包括:提取短视频标题特征数据,采用TF-IDF方法,TF-IDF方法包括TF和IDF,TF是词频,表示一个字词在指定文件中出现的频率,具体计算公式如下所示:其中,tfi,j表示词语ti出现在文件dj中的词频;ni,j表示词语ti出现在文件dj中的次数,∑knk,j表示在文件dj中出现的所有词语的次数之和;IDF是逆文本频率,表示一个字词在所有文件中出现的频率,具体计算公式如下所示:其中,idfi表示词语ti出现在所有文件中的词频,|D|表示所有文件总数,式(2)中“:”表示包含词语ti的文件数目,计算tfi,j与idfi的乘积便可计算出一个词的TF-IDF值。3.根据权利要求2所述的基于短视频多模态特征的短视频推荐模型,其特征在于,所述步骤1、所述步骤2和所述步骤3具体包括:用PCA降维算法将特征向量维度降维到k维,主要用于提取最有价值的信息,是无监督的,PCA降维算法的实现的主要步骤,如下所示:特征标准化,即特征矩阵F中每列特征值减去该列的平均值,已知一个m×n特征矩阵F,特征矩阵F中每一列代表一个属性,计算矩阵中每个属性的均值得到有关属性的1×n均值矩阵将特征矩阵F与均值矩阵相减得到标准化矩阵SF,特征矩阵F、均值矩阵和标准2CN111523575A权利要求书2/6页化矩阵SF分别如下所示:计算协方差矩阵COV_SF,表示两个字段的相关性,具体计算公式如下所示:其中,m表示样本数量,即协方差矩阵COV_SF中行数,SFT表示SF矩阵的转置矩阵;求取协方差矩阵COV_SF的特征值和特征向量,具体计算公式如下所示:(λE-COV_SF)X=0(7)其中,λ表示特征值,X表示特征向量,E表示单位矩阵;将多模态特征数据的维度降到k维,选取式(7)计算出来的最大的k个特征