预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112951257A(43)申请公布日2021.06.11(21)申请号202011016408.X(22)申请日2020.09.24(71)申请人上海译会信息科技有限公司地址200333上海市普陀区同普路1175弄3号1楼199-119室(72)发明人陈崇军(74)专利代理机构北京科亿知识产权代理事务所(普通合伙)11350代理人汤东凤(51)Int.Cl.G10L21/02(2013.01)G10L21/0216(2013.01)权利要求书4页说明书9页附图1页(54)发明名称一种音频图像采集设备及说话人定位及语音分离方法(57)摘要本发明公开了录音录像产品领域的一种音频图像采集设备及说话人定位及语音分离方法,包括双摄像头、还包括4麦克风阵列的音频及图像采集设备;该方法包括以下步骤:采集设备将数据采集到后,通过GCC方法对多声源进行初步定向,再使用Viola‑Jones人脸检测算法对说话人进行检测判别,在双目视觉基础上得到说话人相对采集设备的方向以及距离信息;并使用子带功率谱熵特征来实现语音端点检测,用于提高音频定向方法的性能;通过GSC方法增强目标说话人方向的语音信号,拟制其他方向上的语音信号,再使用维纳滤波器进一步去除残留噪声,优化语音。本发明对目标声源可进行准确估计和定位,极大降低干扰声源造成声源定向的错误率,进一步优化了语音分离系统。CN112951257ACN112951257A权利要求书1/4页1.一种音频图像采集设备及说话人定位及语音分离方法,包括双摄像头、还包括4麦克风阵列的音频及图像采集设备;其特征在于该方法包括以下步骤:A.采集音频设备采集音频数据;B.使用子带功率谱熵特征来实现语音端点检测;C.通过广义互相关法(GCC)对多声源进行初步定向;D.采集图像设备采集人脸图像;E.使用Viola‑Jones人脸检测算法对说话人进行检测判别;并使用Adaboost算法生成级联分类器,来对图像的小块区域进行特征匹配,检测该区域内是否有人;F.使用人脸检测算法对双目相机得到的两幅图像进行人脸检测,得到各自人脸的位置及大小信息,再通过双目视觉定位的原理得到人脸的方向及距离信息;G.将音频及图像两种方法的分别定位结果进行结合,判别声源是否来源于人;H.结合广义旁瓣相消法(GSC)与维纳滤波器相结合的期望语音分离方法,通过广义旁瓣相消器对主瓣方向语音进行增强,再使用维纳滤波器对残留噪声进行滤除,达到语音优化分离的目的。2.根据权利要求1所述的一种音频图像采集设备及说话人定位及语音分离方法,其特征在于:所述步骤B检测方法如下:设音频信号为x(t),(1)对观测信号x(t)进行分帧加窗得到N帧信号,每一帧信号长度为L,对所有分帧信号求自相关函数R(t),第n帧信号得到:(2)对自相关函数作长度为L的快速傅里叶变换,得到功率频谱:其中En(w)表示第w个频率点的功率谱幅度。由于En(w)的实信号部分关于L/2+1对称,其功率谱能量只看1≤w≤L/2部分;(3)由于每个功率频谱点容易被噪声干扰,为了提高该参数在地信噪比环境下抗干扰的能力,将每帧功率谱均匀划分为4个子带:(4)求得第n帧信号的第l个频点功率谱能量占整个功率谱概率为:则每一帧信号对应的SPSE特征为:2CN112951257A权利要求书2/4页最后通过设定阈值,对每一帧音频信号的子带功率谱熵特征来判定该帧信号是否为语音。3.根据权利要求1所述的一种音频图像采集设备及说话人定位及语音分离方法,其特征在于:所述步骤C中初步定为方法如下:(1)将两个麦克风所采集到的音频信号进行分帧加窗处理,第i个信号源到达两麦克风的第n帧信号分别为:n式中,si(t)为第i个独立声源,αi为该声源传播到达对应麦克风的衰减系数,τi为该声源到达对应麦克风的时间参数,n(t)为对应麦克风中的不相干加性噪声;(2)为锐化互相关函数的峰值,来降低环境噪声的影响,在频域中使用权函数对互功率谱进行加权。再进行傅里叶反变换,得到对应互相关函数:通过加权后的互相关函数中,认为噪声互相关函数Rn1n2(τi)为0,则有:n当τi=τ1i‑τ2i时,R12(τi)取得最大值,可以通过此求得声源到达相邻麦克风间的时延τI;(3)得到一段语音信号每一帧的时延值后,可计算得到所有语音帧时延的概率密度,并对该函数进行寻峰即得声源方向矩阵:其中,矩阵长度NS即为声源个数,为峰值所在位置,即第i个声源的方向。4.根据权利要求1所述的一种音频图像采集设备及说话人定位及语音分离方法,其特征在于:所述步骤E中Viola‑Jones人脸检测步骤如下:首先对图像进行不同尺度大小的缩放,形成多个图像区域;对每个区域提取对应的Haar‑like特征,并使