筛选发音词典有效词条的方法及装置-豆柴文库

筛选发音词典有效词条的方法及装置.pdf

2023-12-06

10金币

773KB

17页

Jo****31

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105893414A(43)申请公布日2016.08.24(21)申请号201510848815.X(22)申请日2015.11.26(71)申请人乐视致新电子科技（天津）有限公司地址300467天津市滨海新区生态城动漫中路126号动漫大厦B1区二层201-427(72)发明人张俊博(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人刘戈(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书10页附图4页(54)发明名称筛选发音词典有效词条的方法及装置(57)摘要本发明实施例提供一种筛选发音词典有效词条的方法及装置。遍历语音词典的每一词条，调用预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。实现了低成本、高效率的发音词典优化，同时提高了发音词典的识别率。CN105893414ACN105893414A权利要求书1/2页1.一种筛选发音词典有效词条的方法，其特征在于，包括如下的步骤：遍历语音词典的每一词条，调用预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括，根据语料采用如下的步骤训练所述统计模型：将用于训练的所述语料进行预处理得到语料库，其中，所述预处理包括去除冗余的文本、断句、去除标点符号、添加句首和句尾的识别标记等。3.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：根据所述语料库，将所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元；统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发音频率，以所述统计的结果生成所述统计模型。4.根据权利要求3所述的方法，其特征在于，对所述词条打分，进一步包括：查询所述统计模型，根据所述词条中每个所述单字的平均发音频率获取所述词条的平均分；将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元；从优先级最高的所述字单元开始查询所述统计模型，若查询到所述统计模型中存在所述字单元对应的所述发音频率，则将所述发音频率作为所述单字的分数；否则，将所述单字在所述统计模型中发音频率的最大值作为所述单字的分数。5.根据权利要求1或4所述的方法，其特征在于，根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典，进一步包括：设定分数阈值，对于每一组文本相同而发音不同的词条集合，若每个所述单字的分数都小于所述分数阈值，则保留所述平均分最高的词条；否则，删除所述词条集合中包含有单字分数小于所述分数阈值的词条。6.一种筛选发音词典有效词条的装置，其特征在于，包括如下的模块：打分模块，用于遍历语音词典的每一词条，调用统计模型训练模块预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；筛选模块，用于根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。7.根据权利要求6所述的装置，其特征在于，所述统计模型训练模块，用于根据语料采用如下的步骤训练所述统计模型：将用于训练的所述语料进行预处理得到语料库，其中，所述预处理包括去除冗余的文本、断句、去除标点符号、添加句首和句尾的识别标记等。8.根据权利要求7所述的装置，其特征在于，所述统计模型训练模块进一步用于：根据所述语料库，将所述单字与上下文环境中的文字进行不同程度的结合生成带有优2CN105893414A权利要求书2/2页先级的字单元；统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发音频率，以所述统计的结果生成所述统计模型。9.根据权利要求8所述的装置，其特征在于，所述打分模块，进一步用于：查询所述统计模型，根据所述词条中每个所述单字的平均发音频率获取所述词条的平均分；将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合生成带有优先级的字单元；从优先级最高的所述字单元开始查询所述统计模型，若查询到所述统计模型中存在所述字单元对应的所述发音频率，则将所述发音频率作为所述单字的分数；否则，将所述单字在所述统计模型中发音频率的最大值作为所述单字的分数。10.根据权利要求6或9所述的装置，其特征在于，所述筛选模块，进一步用于：设定分数阈值，对于每一组文本相同而发音不同的词条集合，若每个所述单字的分数都小于所述

相关资料

筛选发音词典有效词条的方法及装置.pdf

本发明实施例提供一种筛选发音词典有效词条的方法及装置。遍历语音词典的每一词条，调用预先训练的统计模型，并根据预设的打分策略，对所述词条打分，其中，所述统计模型中保存有所述词条与相应发音分布的对照关系；根据预设的筛选策略对所述打分后的所述语音词典进行筛选，得到优化后的语音词典。实现了低成本、高效率的发音词典优化，同时提高了发音词典的识别率。

2023-12-06

773KB

发音词典构建方法、语音识别方法及相关装置.pdf

本申请提出一种发音词典构建方法、语音识别方法及相关装置，该发音词典构建方法，包括：对目标音频数据进行音素提取，得到对应的音素集合；所述目标音频数据为覆盖全部音素的音频数据；根据提取得到的音素集合中的每个音素的识别概率，以及所述目标音频数据对应的音素标签，从所述音素集合中确定出所述音素标签中的音素的相似音素；按照单词与该单词对应的标准发音和相似发音对应存储的规则，构建得到多发音词典；其中，所述标准发音由所述音素标签中的音素构成，所述相似发音由所述音素标签中的音素的相似音素构成。通过上述方案构建的多发音词典，

2023-07-24

614KB

一种词条召回方法、装置和用于召回词条的装置.pdf

本申请实施例公开了一种词条召回方法、装置和用于召回词条的装置。该方法的实施例包括：获取目标用户的输入词序列；基于输入词序列和预先训练的深度树匹配模型，从候选词词表中召回目标词条；将目标词条发送至目标用户的客户端。该实施方式可召回符合用户输入习惯的个性化词条，提高了用户的输入效率。

2023-07-24

563KB

一种词条召回方法、装置和用于召回词条的装置.pdf

本申请实施例公开了一种词条召回方法、装置和用于召回词条的装置。该方法的实施例包括：对用户语料中的多个词条进行聚类，以得到各词条的主题；获取目标用户的历史特征词，并从多个词条中确定出与历史特征词具有相同主题的目标词条；召回满足预设条件的目标词条，并发送至目标用户的客户端。该实施方式提高了所召回的词条与用户输入内容的相关性，且所召回的词条能够满足用户的多样性需求。

2023-07-24

629KB

英语发音词典.docx

学习英语发音追本溯源就必须了解英语发音词典。通过英语发音词典，我们能够深刻理解英语发音，包括英式和美式发音的区别和联系。我们现在通常使用的第十五版国际音标，在本发音词典前言中给出了全面的说明。在此基础上，我推荐使用海词词典标注英语音标的方式。音标发音推荐使用剑桥英语发音词典和朗文发音词典。这两个都有对应发音词典软件，可作为参考。一、英语发音词典第十五版简介：第十五版DanielJonesEditedbyPeterRoach&JamesHartman英国剑桥大学出版社授权上海外语教育出版社出版发行1999年

2024-08-15

390KB