预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114218488A(43)申请公布日2022.03.22(21)申请号202111547827.0(22)申请日2021.12.16(71)申请人中国建设银行股份有限公司地址100033北京市西城区金融大街25号(72)发明人李宗珂(74)专利代理机构北京润平知识产权代理有限公司11283代理人李红(51)Int.Cl.G06F16/9535(2019.01)G06K9/62(2022.01)G10L15/02(2006.01)G10L15/26(2006.01)G06V10/80(2022.01)权利要求书2页说明书9页附图5页(54)发明名称基于多模态特征融合的信息推荐方法、装置及处理器(57)摘要本申请实施例提供一种基于多模态特征融合的信息推荐方法、装置及处理器,属于人工智能技术领域。方法包括:获取目标对象的音视频数据及个性化信息;依据音视频数据提取目标对象的多模态特征信息,多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息;基于多模态特征信息及个性化信息向目标对象推荐对应的目标信息。本申请通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取,基于结合用户的图像特征及语音特征,能够有效加强用户的动态表征能力,从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利影响。CN114218488ACN114218488A权利要求书1/2页1.一种基于多模态特征融合的信息推荐方法,其特征在于,包括:获取目标对象的音视频数据及个性化信息;依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;获取各信息的属性特征,基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。2.根据权利要求1所述的基于多模态特征融合的信息推荐方法,其特征在于,依据所述音视频数据提取所述目标对象的多模态特征信息,包括:提取所述音视频数据的图像帧数据及音频数据;提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息;所述语音信号特征信息还包括帧能量以及共振峰频率及其带宽。3.根据权利要求2所述的基于多模态特征融合的信息推荐方法,其特征在于,提取所述音视频数据的图像帧数据及音频数据,包括:将所述音视频数据分割为N个子音视频数据,提取所述子音视频数据的子图像帧数据及子音频数据;提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息,包括:对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号;对所述图像帧序列的每一帧图像数据进行特征提取,得到所述图像帧序列的图像特征信息,并提取所述语音信号的语音信号特征;基于对所述语音信号特征进行语音识别得到所述语音信号对应的文本特征信息。4.根据权利要求3所述的基于多模态特征融合的信息推荐方法,其特征在于,对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号,包括:以设定时间步长作为帧长对所述子音频数据进行分帧处理,得到n帧语音信号;以所述设定时间步长对所述子图像帧数据进行分帧处理,确定每一帧语音信号对应的子图像帧序列;针对每一子图像帧序列,选择性提取所述子图像帧序列中的图像数据,得到当前语音信号对应的图像帧序列。5.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,选择性提取所述子图像帧序列中的图像数据,包括:从所述子图像帧序列的第一帧图像数据开始,以设定帧间隔依次提取所述子图像帧序列中的图像数据。6.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,选择性提取所述子图像帧序列中的图像数据,包括:依次提取所述子图像帧序列中的第一帧图像数据、中间帧图像数据及最后一帧图像数据;当所述子图像帧序列中的图像数据的数量为奇数时,所述中间帧图像数据为第(m+1)/2CN114218488A权利要求书2/2页2帧图像数据;当所述子图像帧序列中的图像数据的数量为偶数时,所述中间帧图像数据为第m/2帧图像数据;其中,m为所述子图像帧序列中的图像数据的数量。7.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,所述个性化信息包括:所述目标对象的行为信息及所述目标对象的画像信息;所述基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息,包括:以所述语音信号特征、所述图像特征信息及