预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115910074A(43)申请公布日2023.04.04(21)申请号202211324979.9G10L17/04(2013.01)(22)申请日2022.10.27G10L17/18(2013.01)G10L17/20(2013.01)(71)申请人深圳市经纬纵横科技有限公司G10L25/24(2013.01)地址518000广东省深圳市龙华区龙华街G10L21/0208(2013.01)道清华社区梅龙大道2113号卫东龙商务大厦B座1603(72)发明人张文平白维朝(74)专利代理机构深圳知帮办专利代理有限公司44682专利代理师谭慧(51)Int.Cl.G10L17/22(2013.01)G10L15/22(2006.01)G07C9/38(2020.01)G10L17/02(2013.01)权利要求书4页说明书11页附图1页(54)发明名称一种智能门禁的语音控制方法及装置(57)摘要本发明公开了智能门禁的语音控制方法及装置,通过获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放,在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制,可以对智能门禁的语音输入进行精准采集并提供快速反馈,提高了语音识别的精确性和智能门禁的实用性。CN115910074ACN115910074A权利要求书1/4页1.一种智能门禁的语音控制方法,其特征在于,包括以下步骤:获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,其中,语音信息包括语音对应的帧序列;提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,其中,网络模型包括输入层、输出层和隐藏层;向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放;在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制。2.根据权利要求1所述的智能门禁的语音控制方法,其特征在于,向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放,包括:选取三种频率f1、f2和f3作为标记音频率,取单位幅值和长度均为2倍远端信号帧长对应该三种频率的单频信号s1、s2和s3混合叠加生成原始标记音s,其中f1、f2和f3分别落在正常语音频段分段的低频、中频和高频,低频信号为100Hz~1000Hz,中频1000Hz~2000Hz,高频为2000Hz~3000Hz,得到标记音s后再通过标记音的嵌入规则在远端信号中寻找合适的帧,将s缩放至合适的幅度后嵌入到远端信号中;将第n帧远端信号通过计算当前帧的离散傅里叶变换得到频谱,取频谱的模方得到能量谱S(k),根据临界频带计算表达式为分别计算以f1、f2和f3为中心频率的临界频带W1、W2和W3,采用当前信号帧的能量谱计算落在各个临界频谱带内的能量的表达式为其中fs为远端信号的采样频率,N为快速傅里叶变换的长度,根据临界频带W1、W2和W3分别计算得到的临界频带能量为根据能量谱计算当前远端信号帧对应的f1、f2和f3频率点的能量分量和取其中的最大值作为当前第n帧的频点能量E′n,计算上一帧的临界频带能量En‑1与当前帧的临界频带能量E′n之比为λ,当λ、En‑1和E′n分别满足则判定当前帧为可嵌入帧,其中λmin为临界频带能量的最低门限,Emax表示当前帧的频点能量最高门限,Emin表示前一帧临界频带能量的最低门限,λmin选取得越大,则嵌入位置的上一帧与当前帧的临界频带能量比值越大,对嵌入标记音的掩蔽效果越好,而对可嵌入位置的旋转条件越苛刻;Emax设置得越小,要求嵌入位置的频点能量越低,使嵌入后的帧在f1、f2和f3三个频率的能量保持相等;2CN115910074A权利要求书2/4页根据上一帧的临界频带能量与当前帧的频点能量计算其掩蔽阈值Tn,掩蔽阈值的表达式为其中α为嵌入因子,根据当前帧和前一帧的掩蔽阈值进行平滑处理得到标记音嵌入的幅度A,幅度的表达式为A=βTn‑1+(1‑β)Tn,其中β表示平滑因子,将原始标记音s的幅度扩大至A得到带嵌入标记信号s′,s′=A*s,将s′与当前帧相叠加得到嵌入标记音后的远端信号帧