预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103456312A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103456312103456312A(43)申请公布日2013.12.18(21)申请号201310384413.X(22)申请日2013.08.29(71)申请人太原理工大学地址030024山西省太原市迎泽西大街79号太原理工大学信息学院(72)发明人李鸿燕贾海蓉张雪英任光龙屈俊玲(74)专利代理机构北京方圆嘉禾知识产权代理有限公司11385代理人董芙蓉(51)Int.Cl.G10L21/0272(2013.01)权权利要求书4页利要求书4页说明书8页说明书8页附图1页附图1页(54)发明名称一种基于计算听觉场景分析的单通道语音盲分离方法(57)摘要本发明涉及一种基于计算听觉场景分析的单通道语音盲分离方法,所述方法包括如下步骤:步骤一、对输入的混叠语音进行前端处理;步骤二、对经过步骤一处理的混叠语音进行听觉特征提取;步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割;步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组;步骤五、对经过步骤四处理的混叠语音进行目标语音重构。本发明在噪声存在的情况下,可以很好地解决单通道混叠语音分离问题,分离的语音可以应用于语音识别的前端,在人工智能、语音通信,声音信号增强领域都将有着广阔的应用前景。CN103456312ACN1034562ACN103456312A权利要求书1/4页1.一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:所述方法包括如下步骤:步骤一、对输入的混叠语音进行前端处理;步骤二、对经过步骤一处理的混叠语音进行听觉特征提取;步骤三、对经过步骤二处理的混叠语音基于谐波特性进行听觉分割;步骤四、对经过步骤三处理的混叠语音基于能量特征进行听觉重组;步骤五、对经过步骤四处理的混叠语音进行目标语音重构。2.如权利要求1所述的一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:步骤一中:所述前端处理是将输入的混合时域信号转化成相应的时频域表示形式;根据人耳的感知机理,将输入混合声音信号通过128个信道的Gammatone滤波器组进行带通滤波,该滤波器的中心频率按照等距宽(EquivalentRectangularBandwidth,ERB)在80~5kHz之间准对数分布;将时频分解后的每一个Gammatone滤波器的输出送入Meddis内耳毛细胞模型;得到神经发放率;然后,在时域上对每个毛细胞的输出以帧长20ms,50%重叠为帧移进行分帧处理;将输入的混合语音信号分解成为一系列时频单元,即T-F单元;同时,为了高频部分的特征提取和听觉重组,对毛细胞输出进行半波整流和低通滤波,从而得到每个通道的包络特征。3.如权利要求1或2所述的一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:步骤二中:经过前端处理过程,混合语音信号在时域和频域上被分解成一系列的T-F单元,在每个T-F单元中,计算下列特征函数:自相关函数(AH)、包络自相关函数(AE)、主基音周期(P(m))、相邻信道互相关(CH)、相邻信道包络互相关(CE),式(4)、式(5)、式(6)、式(7、式(8)为其计算公式:其中,c表示信道,m为时间帧,Nc是采样点数,h(c,·)表示神经发放率,时延τ∈[0,12.5ms],表示帧移,hE(c,·)为毛细胞输出包络;2CN103456312A权利要求书2/4页其中,L=采样率×12.5ms,表示归一化的自相关函数,表示归一化的包络自相关函数。4.如权利要求3所述的一种基于计算听觉场景分析的单通道语音盲分离方法,其特征在于:步骤三中:根据听觉特征提取的提取特征,混合语音信号经过听觉前端处理后的那些T-F单元,合并成对应的听觉片段;在时频域中,属于某一个声源的连续T-F单元的片段区域,定义为段,它是介于时频单元和语音听觉流的中间表示;(1)类型″1″听觉片段对于频率信道上的两个相邻T-F单元u(c,m),u(c+1,m),如果其相邻信道互相关(CH)满足式(9),则将这两个T-F单元都标记为″1″;将标记是″1″的那些相邻T-F单元合并到听觉片段中,从而得到类型″1″的听觉片段,segment(c,m)=1,c∈{clf},完成混合语音信号低频部分的听觉分割;(2)类型″2″听觉片段对于频率通道上的两个相邻T-F单元,如果其相邻信道包络互相关CE满足式(10),则将这两个相邻T-F单元标记为″2″;对于不确定性时频单元,根据幅度调制现象和时域连续性这两个特性,将标记为″2″的相邻T-F单元合并到听觉片段中,从而得到类型″2″的听觉片段,segment(c,m)=2,c∈{chf},完成高频区域连续T-F单元的听觉分割;(