预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115984931A(43)申请公布日2023.04.18(21)申请号202211696565.9G06V40/40(2022.01)(22)申请日2022.12.28G06V20/40(2022.01)G06V10/56(2022.01)(71)申请人支付宝(杭州)信息技术有限公司G06V10/764(2022.01)地址310000浙江省杭州市西湖区西溪路G06V10/80(2022.01)556号8层B段801-11G06V10/82(2022.01)(72)发明人曹佳炯丁菁汀G06N3/045(2023.01)(74)专利代理机构北京君慧知识产权代理事务G06N3/09(2023.01)所(普通合伙)11716专利代理师肖鹏(51)Int.Cl.G06V40/16(2022.01)G10L17/04(2013.01)G10L25/51(2013.01)G10L25/27(2013.01)H04L9/40(2022.01)权利要求书3页说明书12页附图3页(54)发明名称一种人脸视频篡改攻击检测方法、装置以及设备(57)摘要本说明书实施例公开了一种人脸视频篡改攻击检测方法、装置以及设备。方案包括:利用训练得到的语音基础模型,从待检测人脸视频中提取语音特征;利用训练得到的视觉基础模型,从所述待检测人脸视频中提取视觉特征;将所述语音特征和所述视觉特征输入一致性模型进行处理,所述一致性模型是根据训练样本的语音与视觉之间的一致性信息,以及反映所述训练样本是否受到了人脸视频篡改攻击的样本标签训练得到的;根据所述一致性模型的所述处理的结果,判断所述待检测人脸视频是否受到了人脸视频篡改攻击。CN115984931ACN115984931A权利要求书1/3页1.一种人脸视频篡改攻击检测方法,包括:利用训练得到的语音基础模型,从待检测人脸视频中提取语音特征;利用训练得到的视觉基础模型,从所述待检测人脸视频中提取视觉特征;将所述语音特征和所述视觉特征输入一致性模型进行处理,所述一致性模型是根据训练样本的语音与视觉之间的一致性信息,以及反映所述训练样本是否受到了人脸视频篡改攻击的样本标签训练得到的;根据所述一致性模型的所述处理的结果,判断所述待检测人脸视频是否受到了人脸视频篡改攻击。2.如权利要求1所述的方法,所述一致性模型包括语音视觉特征编码器、一致性分类模块、第一篡改分类模块;所述将所述语音特征和所述视觉特征输入一致性模型进行处理,具体包括;将所述语音特征和所述视觉特征输入所述语音视觉特征编码器进行编码,得到一致性特征;将所述一致性特征分别输入所述一致性分类模块、所述第一篡改分类模块进行分类。3.如权利要求2所述的方法,所述根据所述一致性模型的所述处理的结果,判断所述待检测人脸视频是否受到了人脸视频篡改攻击,具体包括:获取所述一致性分类模块分类得到的一致性概率;获取所述第一篡改分类模块分类得到的篡改攻击概率;若所述一致性概率大于设定的相应阈值,且所述篡改攻击概率小于设定的相应阈值,则判断所述待检测人脸视频未受到人脸视频篡改攻击。4.如权利要求2或3所述的方法,所述将所述语音特征和所述视觉特征输入一致性模型进行处理之前,所述方法还包括:根据反映所述训练样本的语音与视觉之间的一致性信息的样本标签,计算所述一致性分类模块对应的一致性分类损失;根据所述反映所述训练样本是否受到了人脸视频篡改攻击的样本标签,计算所述第一篡改分类模块对应的第一篡改分类损失;根据所述一致性分类损失和所述第一篡改分类损失,训练得到所述一致性模型。5.如权利要求1所述的方法,所述语音基础模型包括语音特征编码器、第二篡改分类模块、多任务监督模块;所述利用训练得到的语音基础模型,从待检测人脸视频中提取语音特征之前,所述方法还包括:将语音训练样本输入所述语音特征编码器进行编码,得到样本语音特征;将所述样本语音特征输入所述第二篡改分类模块处理,根据相应得到的分类结果,计算第二篡改分类损失;将所述样本语音特征输入所述多任务监督模块处理,根据相应得到的多任务处理结果,计算多任务监督损失;根据所述第二篡改分类损失和所述多任务监督损失,训练所述语音基础模型。6.如权利要求5所述的方法,所述多任务包括语音信号重建任务、语音信号频段一致性任务。2CN115984931A权利要求书2/3页7.如权利要求1所述的方法,所述视觉基础模型包括多颜色空间编码器、颜色空间特征转换器、第三篡改分类模块;所述利用训练得到的视觉基础模型,从所述待检测人脸视频中提取视觉特征之前,所述方法还包括:将图像训练样本在不同颜色空间的图像输入所述多颜色空间编码器进行编码,得到各所述颜色空间分别的对应的颜色空间图像特征;将各所述颜色空间图像特征分别输入所述颜色