预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115762480A(43)申请公布日2023.03.07(21)申请号202211307516.1(22)申请日2022.10.24(71)申请人浙江大华技术股份有限公司地址310051浙江省杭州市滨江区滨安路1187号(72)发明人王宝俊吴人杰方瑞东林聚财殷俊黄惠祥岳昌洁(74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙)44280专利代理师李秀云(51)Int.Cl.G10L15/02(2006.01)G10L15/08(2006.01)G10L17/04(2013.01)G10L15/18(2013.01)权利要求书2页说明书9页附图6页(54)发明名称一种语音唤醒方法、语音唤醒装置以及存储介质(57)摘要本申请公开了一种语音唤醒方法、语音唤醒装置以及存储介质,该语音唤醒方法包括:获取声学特征流;基于第一建模单位提取声学特征流的第一状态序列;响应于第一级解码图对第一状态序列的解码结果为预设唤醒词,获取解码出预设唤醒词的解码声学特征;基于第二建模单位提取解码声学特征的第二状态序列;响应于第二级解码图对第二状态序列的解码结果为预设唤醒词,对预设唤醒词关联的语音设备进行唤醒操作。本申请的语音唤醒方法通过构建多种尺度的声学状态序列组合,能够对唤醒词进行二次解码确认,减少误唤醒的发生。CN115762480ACN115762480A权利要求书1/2页1.一种语音唤醒方法,其特征在于,所述语音唤醒方法包括:获取声学特征流;基于第一建模单位提取所述声学特征流的第一状态序列,其中,所述第一状态序列为所述第一建模单位对应的标注序列;响应于第一级解码图对所述第一状态序列的解码结果为预设唤醒词,获取解码出所述预设唤醒词的解码声学特征;基于第二建模单位提取所述解码声学特征的第二状态序列,其中,所述第一状态序列为所述第二建模单位对应的标注序列,所述第二建模单位与所述第一建模单位为不同级别的建模单位;响应于第二级解码图对所述第二状态序列的解码结果为所述预设唤醒词,对所述预设唤醒词关联的语音设备进行唤醒操作。2.根据权利要求1所述的语音唤醒方法,其特征在于,所述预设唤醒词的解码声学特征的长度为所述预设唤醒词对应的带权无向图长度。3.根据权利要求1所述的语音唤醒方法,其特征在于,所述第一级解码图对应所述第一状态序列的解码结果还包括第一路径似然值,所述第二级解码图对应所述第二状态序列的解码结果还包括第二路径似然值。响应于第二级解码图对所述第二状态序列的解码结果为所述预设唤醒词,对所述预设唤醒词关联的语音设备进行唤醒操作,包括:响应于所述第二级解码图对所述第二状态序列的解码结果为所述预设唤醒词,且所述第一路径似然值和所述第二路径似然值的差值绝对值小于预设阈值,对所述预设唤醒词关联的语音设备进行唤醒操作。4.根据权利要求1所述的语音唤醒方法,其特征在于,所述建模单位级别包括词、音节、声韵母、状态。5.根据权利要求1所述的语音唤醒方法,其特征在于,所述基于第一建模单位提取所述声学特征流的第一状态序列之前,所述语音唤醒方法还包括:获取待训练数据,并提取所述待训练数据的待训练声学特征;基于所述待训练声学特征,获取待训练声学特征序列以及待训练声学标注序列,其中,所述待训练声学标注序列为所述第一建模单位的标注序列;获取所述待训练声学特征序列与所述第一建模单位声学标注序列的互信息;利用所述互信息对所述第一建模单位进行训练,得到所述第一建模单位。6.根据权利要求5所述的语音唤醒方法,其特征在于,所述利用所述互信息对所述第一建模单位进行训练,得到所述第一建模单位,包括:利用所述互信息,构建目标训练函数;以所述目标训练函数的目标函数值越来越大的方向,对所述第一建模单位进行训练,直至所述目标训练函数的目标函数值达到一个预设阈值,得到所述第一建模单位。7.根据权利要求4所述的语音唤醒方法,其特征在于,所述基于第一建模单位提取所述声学特征流的第一状态序列之前,所述语音唤醒方法还包括:2CN115762480A权利要求书2/2页利用第一建模单位、上下文相关模型、发音词典模型以及语言模型建立第一解码图。8.根据权利要求5所述的语音唤醒方法,其特征在于,所述提取所述待训练数据的声学特征之前,所述语音唤醒方法还包括:对所述待训练数据采取数据增强处理,其中,所述数据增强处理包括加混响、加噪声、速度扰动和/或音量扰动。9.一种语音唤醒装置,其特征在于,所述语音唤醒装置包括处理器、与所述处理器连接的存储器,其中,所述存储器存储有程序指令;所述处理器用于执行所述存储器存储的程序指令以实现如权利要求1至8任一项所述的语音唤醒方法。10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序指令,所述程序指令被执行时实现如