一种音频图像采集设备及说话人定位及语音分离方法-豆柴文库

一种音频图像采集设备及说话人定位及语音分离方法.pdf

2023-11-09

10金币

697KB

15页

美丽****ka

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112951257A(43)申请公布日2021.06.11(21)申请号202011016408.X(22)申请日2020.09.24(71)申请人上海译会信息科技有限公司地址200333上海市普陀区同普路1175弄3号1楼199-119室(72)发明人陈崇军(74)专利代理机构北京科亿知识产权代理事务所(普通合伙)11350代理人汤东凤(51)Int.Cl.G10L21/02(2013.01)G10L21/0216(2013.01)权利要求书4页说明书9页附图1页(54)发明名称一种音频图像采集设备及说话人定位及语音分离方法(57)摘要本发明公开了录音录像产品领域的一种音频图像采集设备及说话人定位及语音分离方法，包括双摄像头、还包括4麦克风阵列的音频及图像采集设备；该方法包括以下步骤：采集设备将数据采集到后，通过GCC方法对多声源进行初步定向，再使用Viola‑Jones人脸检测算法对说话人进行检测判别，在双目视觉基础上得到说话人相对采集设备的方向以及距离信息；并使用子带功率谱熵特征来实现语音端点检测，用于提高音频定向方法的性能；通过GSC方法增强目标说话人方向的语音信号，拟制其他方向上的语音信号，再使用维纳滤波器进一步去除残留噪声，优化语音。本发明对目标声源可进行准确估计和定位，极大降低干扰声源造成声源定向的错误率，进一步优化了语音分离系统。CN112951257ACN112951257A权利要求书1/4页1.一种音频图像采集设备及说话人定位及语音分离方法，包括双摄像头、还包括4麦克风阵列的音频及图像采集设备；其特征在于该方法包括以下步骤：A.采集音频设备采集音频数据；B.使用子带功率谱熵特征来实现语音端点检测；C.通过广义互相关法(GCC)对多声源进行初步定向；D.采集图像设备采集人脸图像；E.使用Viola‑Jones人脸检测算法对说话人进行检测判别；并使用Adaboost算法生成级联分类器，来对图像的小块区域进行特征匹配，检测该区域内是否有人；F.使用人脸检测算法对双目相机得到的两幅图像进行人脸检测，得到各自人脸的位置及大小信息，再通过双目视觉定位的原理得到人脸的方向及距离信息；G.将音频及图像两种方法的分别定位结果进行结合，判别声源是否来源于人；H.结合广义旁瓣相消法(GSC)与维纳滤波器相结合的期望语音分离方法，通过广义旁瓣相消器对主瓣方向语音进行增强，再使用维纳滤波器对残留噪声进行滤除，达到语音优化分离的目的。2.根据权利要求1所述的一种音频图像采集设备及说话人定位及语音分离方法，其特征在于：所述步骤B检测方法如下：设音频信号为x(t)，(1)对观测信号x(t)进行分帧加窗得到N帧信号，每一帧信号长度为L，对所有分帧信号求自相关函数R(t)，第n帧信号得到：(2)对自相关函数作长度为L的快速傅里叶变换，得到功率频谱：其中En(w)表示第w个频率点的功率谱幅度。由于En(w)的实信号部分关于L/2+1对称，其功率谱能量只看1≤w≤L/2部分；(3)由于每个功率频谱点容易被噪声干扰，为了提高该参数在地信噪比环境下抗干扰的能力，将每帧功率谱均匀划分为4个子带：(4)求得第n帧信号的第l个频点功率谱能量占整个功率谱概率为：则每一帧信号对应的SPSE特征为：2CN112951257A权利要求书2/4页最后通过设定阈值，对每一帧音频信号的子带功率谱熵特征来判定该帧信号是否为语音。3.根据权利要求1所述的一种音频图像采集设备及说话人定位及语音分离方法，其特征在于：所述步骤C中初步定为方法如下：(1)将两个麦克风所采集到的音频信号进行分帧加窗处理，第i个信号源到达两麦克风的第n帧信号分别为：n式中，si(t)为第i个独立声源，αi为该声源传播到达对应麦克风的衰减系数，τi为该声源到达对应麦克风的时间参数，n(t)为对应麦克风中的不相干加性噪声；(2)为锐化互相关函数的峰值，来降低环境噪声的影响，在频域中使用权函数对互功率谱进行加权。再进行傅里叶反变换，得到对应互相关函数：通过加权后的互相关函数中，认为噪声互相关函数Rn1n2(τi)为0，则有：n当τi＝τ1i‑τ2i时，R12(τi)取得最大值，可以通过此求得声源到达相邻麦克风间的时延τI；(3)得到一段语音信号每一帧的时延值后，可计算得到所有语音帧时延的概率密度，并对该函数进行寻峰即得声源方向矩阵：其中，矩阵长度NS即为声源个数，为峰值所在位置，即第i个声源的方向。4.根据权利要求1所述的一种音频图像采集设备及说话人定位及语音分离方法，其特征在于：所述步骤E中Viola‑Jones人脸检测步骤如下：首先对图像进行不同尺度大小的缩放，形成多个图像区域；对每个区域提取对应的Haar‑like特征，并使

相关资料

一种音频图像采集设备及说话人定位及语音分离方法.pdf

本发明公开了录音录像产品领域的一种音频图像采集设备及说话人定位及语音分离方法，包括双摄像头、还包括4麦克风阵列的音频及图像采集设备；该方法包括以下步骤：采集设备将数据采集到后，通过GCC方法对多声源进行初步定向，再使用Viola‑Jones人脸检测算法对说话人进行检测判别，在双目视觉基础上得到说话人相对采集设备的方向以及距离信息；并使用子带功率谱熵特征来实现语音端点检测，用于提高音频定向方法的性能；通过GSC方法增强目标说话人方向的语音信号，拟制其他方向上的语音信号，再使用维纳滤波器进一步去除残留噪声，优

2023-11-09

697KB

一种说话人音频分离方法、终端设备及存储介质.pdf

本发明涉及一种说话人音频分离方法、终端设备及存储介质,该方法中包括:S1:将包含多个说话人语音的音频按预设时长切分为多个音频片段;S2:提取各音频片段中的声纹向量;S3:将所有音频片段的声纹向量拼接为一个声纹特征矩阵;S4:根据声纹特征矩阵,计算音频片段的相似度矩阵;S5:根据相似度矩阵,对各音频片段进行聚类;S6:根据聚类结果,设定每个类别对应一个说话人,将每个类别对应的所有音频片段进行拼接,完成对不同说话人音频的分离。本发明可以在未知说话人人数的情况下,实现说话人音频的分离,具有较高的准确性,能够应用

2023-04-19

383KB

基于语音处理的说话人分离方法、装置、设备及存储介质.pdf

本申请涉及一种基于语音处理的说话人分离方法、装置、设备及存储介质。所述方法包括：根据待处理语音的说话人变化点标记及预设的时间尺度对待处理语音进行分割，得到至少一个语音片段集，生成每个语音片段集的语音特征，基于预先构建的模型对每个语音片段集的语音特征执行特征提取和特征融合操作，得到每个语音片段集的目标特征矩阵，计算每个目标特征矩阵的相似度矩阵，基于谱聚类算法对每个相似度特征矩阵进行聚类操作得到每个语音片段集的聚类结果，对每个语音片段集的聚类结果执行投票操作，生成待处理语音的目标结果。本申请可以准确将待处理语

2023-07-22

564KB

图像采集设备及图像采集方法.pdf

本申请提供一种图像采集设备及图像采集方法,图像采集设备包括红外泛光源、红外散斑光源、至少一个图像采集模组以及控制模组,其中,每个图像采集模组中至少包括一个红外相机,被配置为在拍摄时采集红外泛光得到红外泛光图像,或采集红外散斑光得到红外散斑图像,控制模组工作时被配置为获取预设的拍摄帧率,以及根据所述拍摄帧率,指示红外相机以分帧的方式分别拍摄红外泛光图像和红外散斑图像。图像采集设备可以利用同一个红外相机拍摄得到两种模态的红外图像,在不需要增加相机数量的情况下,使得图像采集设备采集到更多模态的图像,有利于提高图

2023-04-26

766KB

一种轮图像采集组件、轮定位设备及车轮定位系统.pdf

本发明实施例涉及四轮定位技术领域，公开了一种轮图像采集组件，应用于车轮定位，包括：基座、马达组件以及相机模组：其中，所述基座的一端用于连接轮定位设备中的支架主体，所述基座的另一端用于连接所述相机模组；马达组件，安装于所述基座内，包括马达，所述马达用于驱动所述相机模组绕水平轴线转动，以调节所述相机模组的俯仰角；所述相机模组用于采集车轮的图像，以使所述车轮相对于所述车辆的位置被确定。通过上述方式，轮图像采集组件可以通过自身的马达驱动相机模组转动以调整相机模组的视野范围，更灵活，利于复杂环境中对轮定位。

2023-08-25

946KB