预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115775554A(43)申请公布日2023.03.10(21)申请号202211521669.6(22)申请日2022.11.30(71)申请人科大讯飞股份有限公司地址230088安徽省合肥市高新区望江西路666号(72)发明人伍宏传胡亚军(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师卫三娟(51)Int.Cl.G10L13/08(2013.01)G10L13/02(2013.01)G06F40/289(2019.01)G06F16/33(2020.01)权利要求书2页说明书13页附图3页(54)发明名称一种多音字消歧方法、装置、存储介质及设备(57)摘要本申请公开了一种多音字消歧方法、装置、存储介质及设备,该方法包括:首先获取包含目标多音字的目标文本,并对其进行分词处理,得到其包含目标多音字的目标分词,然后判断目标分词是否包含在预先构建的无歧义词典中,若是,则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本中目标多音字的发音;若否,则将目标文本输入预先构建的多音字消歧模型,预测得到目标多音字的发音。由于本申请是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型,并利用部分多音字在分词中的发音无歧义的特性构建了无歧义词典,从而在多音字消歧过程中,能够结合该多音字消歧模型、分词信息和无歧义词典,更为准确的确定出多音字的发音。CN115775554ACN115775554A权利要求书1/2页1.一种多音字消歧方法,其特征在于,包括:获取包含目标多音字的目标文本,并对所述目标文本进行分词处理,得到所述目标文本中包含所述目标多音字的目标分词;判断所述目标分词是否包含在预先构建的无歧义词典中;若是,则将所述无歧义词典中预先标注的所述目标分词中目标多音字的发音作为所述目标文本包含的目标分词中目标多音字的发音;若否,则将所述目标文本输入预先构建的多音字消歧模型,预测得到所述目标多音字的发音;其中,所述多音字消歧模型是利用包含多音字的训练文本,根据字典中多音字语义和发音的对应关系进行训练得到的。2.根据权利要求1所述的方法,其特征在于,所述无歧义词典是根据字典中没有发音歧义的多音字所在的分词词条及其对应发音构建的;所述判断所述目标分词是否包含在预先构建的无歧义词典中,包括:利用预设的查词典的方式,查询所述目标分词是否与所述无歧义词典中的一条分词词条一致。3.根据权利要求1所述的方法,其特征在于,所述多音字消歧模型的构建方式如下:根据字典中多音字语义和发音的对应关系,提取字典中各个多音字对应的每个发音中每条释义的语义表征;获取包含训练多音字的训练文本,并根据所述训练文本、所述语义表征和目标损失函数对初始多音字消歧模型进行训练,生成所述多音字消歧模型。4.根据权利要求3所述的方法,其特征在于,所述目标损失函数为交叉熵损失函数。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取包含验证多音字的验证文本;将所述验证文本输入至所述多音字消歧模型,预测得到所述验证文本中验证多音字的验证发音;当所述验证文本中验证多音字的验证发音与所述验证文本中验证多音字的对应的真实发音不一致时,将所述验证文本重新作为所述训练文本,对所述多音字消歧模型进行更新。6.根据权利要求1‑5任一项所述的方法,其特征在于,所述将所述目标文本输入预先构建的多音字消歧模型,预测得到所述目标多音字的发音,包括:将所述目标文本输入至预先构建的多音字消歧模型,提取所述目标文本中目标多音字的语义表征;将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算,并根据计算结果预测得到所述目标文本中目标多音字的发音。7.根据权利要求6所述的方法,其特征在于,所述将所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征进行匹配计算,并根据计算结果预测得到所述目标文本中目标多音字的发音,包括:计算所述目标文本中目标多音字的语义表征与字典中目标多音字对应的每个发音中每条释义的语义表征之间的相似度;2CN115775554A权利要求书2/2页将所述字典中目标多音字对应的每个发音中每条释义对应的相似度进行求和计算,得到计算结果;根据所述计算结果,确定所述目标文本中目标多音字的发音概率分布,并根据所述发音概率分布,确定所述目标文本中目标多音字的发音。8.一种多音字消歧装置,其特征在于,包括:第一获取单元,用于获取包含目标多音字的目标文本,并对所述目标文本进行分词处理,得到所述目标文本中包含所述目标多音字的目标分词;判断单元,用于判断所述目标分词是否包含在预先构建的无歧义词典中;作为单元,用于若判断出所述目标分词是包含