发音诊断方法、装置、终端设备以及存储介质-豆柴文库

发音诊断方法、装置、终端设备以及存储介质.pdf

2023-07-25

10金币

715KB

18页

努力****亚捷

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113870898A(43)申请公布日2021.12.31(21)申请号202111017787.9(22)申请日2021.08.31(71)申请人深圳市声希科技有限公司地址518000广东省深圳市宝安区新安街道兴东社区69区洪浪北二路26号信义领御研发中心8栋1406(72)发明人钟静华李坤(74)专利代理机构深圳市恒程创新知识产权代理有限公司44542代理人巩莉(51)Int.Cl.G10L25/60(2013.01)G10L15/02(2006.01)权利要求书3页说明书11页附图3页(54)发明名称发音诊断方法、装置、终端设备以及存储介质(57)摘要本发明公开一种发音诊断方法，用于终端设备，包括：在接收到目标用户针对标准文本信息发送的目标语音信息时，将所述目标语音信息转换为声学特征序列；将预设标准字典信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素；基于所述实际发音音素和所述标准文本信息对应的标准音素，获得所述目标语音信息的发音诊断结果。本发明还公开一种发音诊断装置、终端设备以及计算机可读存储介质。利用本发明的方法，不需要特定人员亲自对目标用户的发音手动进行发音诊断，从而大大降低了发音诊断的时长，提高了发音诊断的效率。CN113870898ACN113870898A权利要求书1/3页1.一种发音诊断方法，其特征在于，用于终端设备，所述方法包括以下步骤：在接收到目标用户针对标准文本信息发送的目标语音信息时，将所述目标语音信息转换为声学特征序列；将预设标准字典信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素；基于所述实际发音音素和所述标准文本信息对应的标准音素，获得所述目标语音信息的发音诊断结果。2.如权利要求1所述的方法，其特征在于，所述预设标准字典信息包括标准字典字母信息；所述将预设标准字典信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素的步骤之前，所述方法还包括：对所述标准文本信息中的字母进行编码，获得标准字典字母信息；所述将预设标准字典信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素的步骤，包括：将所述标准字典字母信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素。3.如权利要求2所述的方法，其特征在于，所述预设标准字典信息还包括标准字典音素信息；所述将所述标准字典字母信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素的步骤之前，所述方法还包括：对所述标准音素中的音素进行编码，获得标准字典音素信息；所述将所述标准字典字母信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素的步骤，包括：将所述标准字典音素信息、所述标准字典字母信息和所述声学特征序列输入发音诊断模型，获得所述实际发音音素。4.如权利要求3所述的方法，其特征在于，所述将所述标准字典音素信息、所述标准字典字母信息和所述声学特征序列输入发音诊断模型，获得所述实际发音音素的步骤，包括：将所述声学特征序列输入发音诊断模型中的声学编码器，获得输出声学特征；将所述标准字典音素信息输入所述发音诊断模型中的音素编码器，并利用所述音素编码器的输出创建音素键矩阵和音素值矩阵；将所述标准字典字母信息输入所述发音诊断模型中的字母编码器，并利用所述字母编码器的输出创建字母键矩阵和字母值矩阵；将所述输出声学特征、所述音素键矩阵、所述音素值矩阵、所述字母键矩阵和所述字母值矩阵输入发音诊断模型中的解码器，获得堆栈输出；将所述解码器的堆栈输出输入所述发音诊断模型中的序列模型解码器，获得所述实际发音音素。5.如权利要求4所述的方法，其特征在于，所述声学编码器包括的依次串联的多个声学编码单元，每个声学编码单元包括多头自注意力网络和前馈网络；所述将所述声学特征序列输入发音诊断模型中的声学编码器，获得输出声学特征的步骤，包括：将所述多个声学编码单元中的第一个声学编码单元确定为当前声学编码单元；将所述声学特征序列输入所述当前声学编码单元中的多头自注意力网络，获得中间声2CN113870898A权利要求书2/3页学特征；将所述中间声学特征输入所述当前声学编码单元中的前馈网络，获得结果声学特征；将所述多个声学编码单元中的下一个声学编码单元确定为新的当前声学编码单元，并利用所述新的当前声学编码单元更新所述当前声学编码单元，以及利用所述结果声学特征更新所述声学特征序列；返回执行所述将所述声学特征序列输入所述当前声学编码单元中的多头自注意力网络的步骤，直到所述多个声学编码单元中最后一个声学编码单元的前馈网络运算完成，获得所述输出声学

相关资料

发音诊断方法、装置、终端设备以及存储介质.pdf

本发明公开一种发音诊断方法，用于终端设备，包括：在接收到目标用户针对标准文本信息发送的目标语音信息时，将所述目标语音信息转换为声学特征序列；将预设标准字典信息和所述声学特征序列输入发音诊断模型，获得所述目标语音信息对应的实际发音音素；基于所述实际发音音素和所述标准文本信息对应的标准音素，获得所述目标语音信息的发音诊断结果。本发明还公开一种发音诊断装置、终端设备以及计算机可读存储介质。利用本发明的方法，不需要特定人员亲自对目标用户的发音手动进行发音诊断，从而大大降低了发音诊断的时长，提高了发音诊断的效率。

2023-07-25

715KB

图像融合方法、装置、终端设备以及存储介质.pdf

本申请实施例提出了一种图像融合方法、装置、终端设备以及存储介质，涉及图像处理技术领域，实现以复杂度较低的方法保证图像融合更加准确的目的。所述方法包括：获得参考图像块和待融合图像块；获得所述待融合图像块中每个像素点的偏差修正参数，利用每个像素点的偏差修正参数，调整所述待融合图像块中每个像素点与在所述参考图像块中对应同一场景位置的像素点之间的差值，得到调整后的差值所对应的待融合图像块的融合权重；根据所述待融合图像块的融合权重，对所述待融合图像块和所述参考图像块进行融合。

2023-07-25

894KB

产品加工方法、装置、终端设备以及存储介质.pdf

本发明公开一种产品加工方法，所述方法包括以下步骤：获取多个目标图像，多个所述目标图像是对放置于预设机台的目标加工产品进行拍摄获得；利用多个所述目标图像，确定所述目标加工产品的多个位置信息；在多个所述位置信息满足预设条件时，确定所述目标加工产品放置准确；利用预设加工图案对所述目标加工产品进行加工，获得最终产品。本发明还公开一种产品加工装置、终端设备以及计算机可读存储介质。利用本发明的方法，加工产品的多个位置信息满足预设条件时，加工产品摆放准确，使得加工产品的位置准确性较高，从而提高了加工精度。

2023-07-24

515KB

吹灰控制方法、装置、终端设备以及存储介质.pdf

本申请公开了一种吹灰控制方法、装置、终端设备以及存储介质，其吹灰控制方法包括：获取锅炉受热面的脏污系数；当检测到脏污系数不符合预设脏污阈值时，对锅炉受热面进行吹灰，获得脏污系数变化值；当检测到脏污系数变化值不符合预设变化阈值时，基于预设正交表及预设偏置数据，生成锅炉受热面的吹灰组合方案。通过检测脏污系数以对锅炉受热面吹灰，并通过检测脏污系数变化值以执行正交试验法，得到对应的吹灰组合方案，解决蒸汽吹灰不准确的技术问题，提高锅炉的效率、经济性、安全性。

2023-06-15

2.4MB

地图构建方法、装置、终端设备以及存储介质.pdf

本发明公开了一种地图构建方法、装置、终端设备以及存储介质，通过获取地图及各原始轨迹，并确定所述地图与所述各原始轨迹的特征匹配关系；基于所述特征匹配关系，构建所述地图与所述各原始轨迹的联合约束关系；对所述联合约束关系进行迭代优化，得到优化结果；根据所述优化结果对所述地图进行更新，得到更新后的地图。通过获取地图及各原始轨迹，并确定地图与各原始轨迹的特征匹配关系，进而构建联合约束关系并进行迭代优化，得到更新后的地图，避免个别精度不高的轨迹对地图整体质量造成影响，实现参考所有轨迹对地图进行联合优化，能够提高地图的

2023-06-11

950KB