人脸识别与语音合成融合系统-豆柴文库

人脸识别与语音合成融合系统.pdf

2023-06-27

10金币

372KB

10页

雨巷****轶丽

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110287781A(43)申请公布日2019.09.27(21)申请号201910414210.8(22)申请日2019.05.17(71)申请人江苏大学地址212013江苏省镇江市学府路301号(72)发明人曾兰玲李唱田红朱星玮王逸飞刘雨哲(51)Int.Cl.G06K9/00(2006.01)G06F16/51(2019.01)G06F16/583(2019.01)G10L13/04(2013.01)权利要求书2页说明书5页附图2页(54)发明名称人脸识别与语音合成融合系统(57)摘要本发明涉及人脸识别与语音合成技术领域，是融合人脸识别与语音合成技术的人脸识别系统，包括：图像获取单元，用于采集人脸识别区域内的图像；样本训练单元，用于对采集到的样本数据并训练模型；动态识别单元，用于动态实时识别人脸；静态识别单元，用于静态识别人脸；语音合成单元，用于语音播报动态识别单元和静态识别单元识别的人脸标识；人脸识别和语音播报功能融合单元，用于实时播报识别出的人脸信息标志。本发明具有速度快，技术融合使得各项操作更加人性化和智能化。本发明直接语音播报识别结果，对于视力有问题的人，比如老人、盲人更加友好。CN110287781ACN110287781A权利要求书1/2页1.一种人脸识别与语音合成技术融合系统，用于对人脸识别区域的人脸进行识别并进行语音播报，其特征在于，包括：1)图像获取单元，用于采集人脸识别区域内的图像；2)样本训练单元，用于对采集到的样本数据并训练模型；3)动态识别单元，用于动态实时识别人脸；4)静态识别单元，用于静态识别人脸；5)语音合成单元，用于语音播报动态识别单元3)和静态识别单元4)识别的人脸标识；6)人脸识别和语音播报功能融合单元，用于实时播报识别出的人脸信息标志。2.如权利要求1所述的人脸识别与语音合成融合系统，其特征在于，所述图像获取单元包括：1.1)打开摄像头获取人脸实时图像；1.2)获取静态图片库中的图像；1.3)将步骤1.1)和1.2)中所获取图像用于识别人脸的样本数据。3.如权利要求1所属的人脸识别与语音合成技术融合系统，其特征在于，所述样本训练单元包括：2.1)将步骤1)采集到人脸图像进行标识；2.2)将采集的人脸图像数据根据标识规则存储到对应标识库中；2.3)不同的标识特征代表有不同数据库；2.4)将2.1)、2.2)步骤处理后的人脸图片作为训练样本，采用优化的AlexNet网络进行训练，得到人脸识别模型。4.如权利要求3所述的人脸识别与语音合成技术融合系统，其特征在于，所述2.4)以下步骤：2.4.1)利用漏斗型级联结构(Funnel-StructuredCascade，FuSt)，由粗到细的方式进行人脸检测；分别使用三个特征(LAB,SURF,SIFT)和三个分类模型(boosted,MLP,MLP)；先用计算量小的特征，分类方式快速过滤非人脸，然后用复杂特征、分类方式逐层筛选人脸；判断是否为人脸的计算公式如公式(1)y＝c1(x)∨c2(x)∨…∨cv(x)(1)其中，y∈{0，1}，ci(x)∈{0,1}表明x是否被认定为人脸；ci是LAB(局部组合二进制)级联分类器；2.4.2)利用一种由粗到精的自编码器网络(Coarse-to-FineAuto-encoderNetworks,CFAN)实现面部特征定位；将面部特征定位看作人脸表观与人脸形状的部分非线性映射，CFAN级联了多级栈式自编码器网络，实现每一级的部分映射；对于面部特征定位，求解非线性映射的计算公式如公式(2)其中，F*为图片到人脸的映射函数，fi为第i层的深度网络的映射函数，Sg(x)表示x的真实位置是否在标识范围内；2.4.3)训练采用AlexNet网络，设计卷积层为5个，加上一个全连接层，将卷积核大小为5x5。2CN110287781A权利要求书2/2页5.如权利要求1所述的人脸识别与语音合成技术融合系统，其特征在于，所述动态识别单元3)包括：3.1)打开摄像头单元，实时获取人脸图像，根据步骤2)的训练模型进行动态人脸识别；3.2)关闭摄像头单元，其用于结束动态识别单元3)，并关闭摄像头。6.如权利要求1所述的人脸识别与语音合成技术融合系统，其特征在于，所述静态识别单元4)包括：4.1)打开图片单元，该图片单元用于打开静态图像库中图片，根据步骤2)的训练模型进行静态人脸识别。7.如权利要求1所述的人脸识别与语音合成融合系统，其特征在于，所述语音合成单元包括：5.1)语音合成单元5)被人脸信息标识激活：系统实时检测人脸识别后的显示数据变化，一旦发生变化说明识别结束，可以进行下一步语音播报；5.2)人脸信息标识出现，语音合成单元5)进行播报；5.3

相关资料

人脸识别与语音合成融合系统.pdf

本发明涉及人脸识别与语音合成技术领域，是融合人脸识别与语音合成技术的人脸识别系统，包括：图像获取单元，用于采集人脸识别区域内的图像；样本训练单元，用于对采集到的样本数据并训练模型；动态识别单元，用于动态实时识别人脸；静态识别单元，用于静态识别人脸；语音合成单元，用于语音播报动态识别单元和静态识别单元识别的人脸标识；人脸识别和语音播报功能融合单元，用于实时播报识别出的人脸信息标志。本发明具有速度快，技术融合使得各项操作更加人性化和智能化。本发明直接语音播报识别结果，对于视力有问题的人，比如老人、盲人更加友好

2023-06-27

372KB

融合人脸表情和语音的双模态情感识别研究的中期报告.docx

融合人脸表情和语音的双模态情感识别研究的中期报告1.研究背景情感识别是计算机视觉和自然语言处理领域的热门研究方向，其涉及到将人类情感表达通过图像识别和声音分析转化为计算机可识别的形式。在实际应用中，情感识别已经被广泛应用于智能客服、情感分析、心理咨询等领域。然而，仅使用单一的情感特征进行识别容易被干扰，且在不同情境下情感表达的方式也存在巨大差异，因此需要结合多种模态来增强识别效果。本文提出了一种融合人脸表情和语音的双模态情感识别方法，旨在提高情感识别准确率和可靠性。2.研究内容本文所提出的双模态情感识别方

2024-09-19

10KB

语音合成和语音识别.pdf

根据本公开的实现，提出了用于语音合成和语音识别的方案。根据该方案，支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型，以支持目标语言。然后，基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型，同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式，该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。

2023-07-24

763KB

基于人脸表情特征与语音特征融合的情感识别研究的任务书.docx

基于人脸表情特征与语音特征融合的情感识别研究的任务书任务书任务名称：基于人脸表情特征与语音特征融合的情感识别研究任务背景：情感识别是一种通过分析人的语音、面部表情和生理反应等多种信号来识别人的情感状态的技术。由于情感识别可以广泛应用于人机交互、情感分析等领域，因此在计算机科学和语音信号处理等相关领域得到了广泛研究。在情感识别中，人脸表情和语音特征是两个重要的信号源。人脸表情可以反映出一个人的情感状态，而语音信号则可以帮助分析一个人的情感状态。然而，对于一个人的情感状态，单独使用人脸表情或语音信号可能会导致

2024-09-27

10KB

特征融合的VAD方法在语音识别系统中的应用.docx

特征融合的VAD方法在语音识别系统中的应用语音识别是一种将语音信号转化为文本形式的技术，其中关键的环节是语音信号的有效性检测（VoiceActivityDetection，VAD）。随着自然语言处理技术的进步，语音识别的应用场景日益扩大，例如人机交互、智能语音助手、自动翻译等领域。因此，如何提高语音识别系统的准确性和稳定性成为了研究的重点之一。特征融合是一种常见的方法，可用于提高语音识别中的VAD准确性。该方法主要是将多种特征、多个算法、多个模型进行有机结合，以达到最佳效果的目的。在VAD中，一般采用的特

2024-10-19

10KB