一种语音增强方法、语音识别方法、聚类方法及装置-豆柴文库

一种语音增强方法、语音识别方法、聚类方法及装置.pdf

2023-12-06

10金币

660KB

20页

雨巷****凝海

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共20页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105989849A(43)申请公布日2016.10.05(21)申请号201510303746.4(22)申请日2015.06.03(71)申请人乐视致新电子科技（天津）有限公司地址300467天津市滨海新区生态城动漫中路126号动漫大厦B1区二层201-427(72)发明人王育军(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人刘戈(51)Int.Cl.G10L21/0208(2013.01)G10L15/06(2013.01)权利要求书3页说明书12页附图4页(54)发明名称一种语音增强方法、语音识别方法、聚类方法及装置(57)摘要本发明公开一种语音增强方法、语音识别方法、聚类方法及装置。方法包括：选取与测试语音的第一帧语音部分的特征向量最匹配的特征向量聚类中心；针对测试语音包含的其他各帧语音部分的特征向量执行：从与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心；根据测试语音包含的各帧语音部分的特征向量、选取的特征向量聚类中心重建测试语音的特征向量。本发明由于在进行语音增强利用了能够表示语音连续性的特征，因此相比于现有技术中的传统的语音增强模型而言，能够达到更好的语音增强效果。CN105989849ACN105989849A权利要求书1/3页1.一种语音增强方法，其特征在于，包括：从训练得到的特征向量聚类中心中，选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心；针对所述测试语音包含的其他各帧语音部分的特征向量执行：从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心；其中，训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力；根据所述测试语音包含的各帧语音部分的特征向量，以及选取的特征向量聚类中心，重建所述测试语音的特征向量。2.如权利要求1所述的方法，其特征在于，根据所述测试语音包含的各帧语音部分的特征向量，以及选取的特征向量聚类中心，重建所述测试语音的特征向量，包括：根据选取的特征向量聚类中心，执行对所述测试语音包含的所有语音部分的特征向量构成的向量集合的插值运算操作，以获得所述测试语音的重建的特征向量。3.如权利要求1所述的方法，其特征在于，从训练得到的特征向量聚类中心中，选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心前，所述方法还包括：从训练语料包含的各帧语音部分中分别提取特征向量样本；确定特征向量样本在多维空间中的分布信息；根据所述分布信息，确定初始聚类中心；根据所述特征向量样本与各初始聚类中心的相似度，对所述各初始聚类中心进行迭代聚类，得到待定聚类中心；根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心；其中，所述设定的迭代聚类规则包括：根据所述训练语料的各语音部分的特征向量，对待定聚类中心进行迭代聚类；并且，在对待定聚类中心进行单次迭代聚类时依据的特征向量，为所述训练语料中单个语音部分的特征向量；在对待聚类中心进行的每相邻两次迭代聚类时分别依据的特征向量，是所述训练语料中相邻语音部分的特征向量。4.如权利要求3所述的方法，其特征在于，根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心，包括：根据设定的迭代聚类规则，针对每个训练语料执行迭代聚类操作，直至满足迭代收敛条件时，将具备满足迭代收敛条件时计算出的参数值的各待定聚类中心，确定为特征向量聚类中心；其中，所述迭代聚类操作包括下述步骤：确定该训练语料的第一帧语音部分的特征向量与与该第一帧语音部分的特征向量最匹配的待定聚类中心的相似度，以及该第一帧语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度；针对该训练语料的其他各帧语音部分，执行：从与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心，以及所述特定空间中与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心的相邻聚类中心中，确定与该语音部分最匹配的待定聚类中心，并确定该语音部分的特征向量与该最匹配的待定聚类中心的相似度，以及该语音2CN105989849A权利要求书2/3页部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度；根据确定的各相似度，计算各待定聚类中心的参数值。5.一种语音识别方法，其特征在于，包括：对采用如权利要

相关资料

一种语音增强方法、语音识别方法、聚类方法及装置.pdf

本发明公开一种语音增强方法、语音识别方法、聚类方法及装置。方法包括：选取与测试语音的第一帧语音部分的特征向量最匹配的特征向量聚类中心；针对测试语音包含的其他各帧语音部分的特征向量执行：从与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心；根据测试语音包含的各帧语音部分的特征向量、选取的特征向量聚类中心重建测试语音的特征向量。本发明由于在进行语音增强利用了能够表示语

2023-12-06

660KB

基于音频增强的语音识别方法及装置.pdf

本发明公开了一种基于音频增强的语音识别方法及装置，包括将麦克风阵列拾取的多通道声源声音数据经过第一滤波函数计算获得第一数据，将第一数据经过第二滤波函数计算获得第二数据，将第二数据通过波束形成算法处理得到单通道音频信号；将单通道音频信号经过基于第一环境噪声降噪算法进行处理获得第三数据；将第三数据通过语音识别模型进行识别。本发明将麦克风阵列拾取的多通道语音数据先消除由于声源声音遇到不同障碍物反射和吸收造成的不同延时的多路反射混合语音数据，然后去除第二数据中的非目标声源声音数据，最后去除环境噪声，实现对声源声音

2023-07-25

530KB

一种语音识别方法及语音识别装置.pdf

本发明公开了一种语音识别方法及识别装置，具体包括以下步骤：S1：进行数据预处理，使用者首先根据其需求创建语音文件，所述语音文件包括语音数据预处理和文本数据预处理，其中所述语音数据预处理用于获取语音文件中的特征数据，所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典；S2：构建语音识别模型，其中所述语音识别模型基于CTC算法进行语音序列的切分。本发明提供的语音识别方法及语音识别装置具有充分提取语音数据的特征信息，同时该模型结构也采用了判断环境状态的技术，能够进一步简化语音识别的流程，

2023-06-11

285KB

一种车载环境下的语音增强方法和语音识别方法.pdf

本申请公开了一种车载环境下的语音增强方法和语音识别方法，将改进的谱减法结合模糊理论，使得谱减法系数能够自适应不同的语音信号，能够有效的消除噪音，避免“音乐噪音”问题，同时提高信噪比，保留了语音信号的有效信号。通过实际仿真运算和车内实验，采用本文算法后，能够有效提高行驶车内的语音识别准确率。

2023-11-06

683KB

一种语音识别方法和语音识别装置.pdf

本申请实施例提供一种语音识别方法和语音识别装置，该方法包括：对语音数据流进行加窗处理，确定位于窗口内的语音数据；对窗口内的语音数据进行对象识别处理，并根据对象识别处理结果对窗口进行长度调整，并将位于调整后的窗口内的语音数据确定为目标语音段；基于识别模型对目标语音段进行语音识别处理，得到目标识别结果。这样，在对语音数据流进行加窗处理时，根据对象识别处理的结果灵活调整窗口长度，以得到不同大小的目标语音段，能够兼顾识别速度和识别效果，从而综合改善端对端语音识别场景的语音识别性能。

2023-07-25

564KB