预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113723105A(43)申请公布日2021.11.30(21)申请号202110393016.3G06N3/08(2006.01)(22)申请日2021.04.13(71)申请人腾讯科技(北京)有限公司地址100080北京市海淀区海淀大街38号银科大厦16层1601-1608室(72)发明人陈小帅陈春全李伟康孙星海(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人祝亚男(51)Int.Cl.G06F40/30(2020.01)G06F16/35(2019.01)G06F40/117(2020.01)G06F40/169(2020.01)G06N3/04(2006.01)权利要求书4页说明书16页附图7页(54)发明名称语义特征提取模型的训练方法、装置、设备及存储介质(57)摘要本申请公开了一种语义特征提取模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取语义特征提取模型的训练语料,训练语料包括目标语言的字词文本语料及其发音标注信息;获取字词文本语料的字词表示向量序列及其发音标注信息的发音表示向量序列;通过语义特征提取模型,从字词表示向量序列和发音表示向量序列中,提取融合语义特征;基于融合语义特征,确定语义特征提取模型的预训练任务所对应的预测结果;基于预测结果和真实结果确定语义特征提取模型的预训练损失,并根据预训练损失调整语义特征提取模型的参数,得到预训练完成的语义特征提取模型。本申请能够提升语义特征提取模型的语义表示能力。CN113723105ACN113723105A权利要求书1/4页1.一种语义特征提取模型的训练方法,其特征在于,所述方法包括:获取所述语义特征提取模型的训练语料,所述训练语料包括目标语言的字词文本语料和所述字词文本语料的发音标注信息;获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的发音标注信息的发音表示向量序列;通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征;基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果;基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。2.根据权利要求1所述的方法,其特征在于,所述通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征,包括:对所述字词文本语料的字词表示向量序列和发音表示向量序列进行融合处理,得到所述字词文本语料的融合表示向量序列;通过所述语义特征提取模型对所述字词文本语料的融合表示向量序列进行特征提取处理,得到所述字词文本语料的融合语义特征。3.根据权利要求2所述的方法,其特征在于,所述对所述字词文本语料的字词表示向量序列和发音表示向量序列进行融合处理,得到所述字词文本语料的融合表示向量序列,包括:将所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行求平均处理,得到所述字词文本语料的融合表示向量序列;或者,将所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行拼接处理,得到所述字词文本语料的融合表示向量序列;或者,将所述字词文本语料的字词表示向量序列和发音表示向量序列输入至字词发音融合网络;通过所述字词发音融合网络对所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行加权求和处理,得到所述字词文本语料的融合表示向量序列。4.根据权利要求1所述的方法,其特征在于,所述通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征,包括:将所述字词文本语料的字词表示向量序列加上第一类型标注向量序列,得到更新后的字词表示向量序列;2CN113723105A权利要求书2/4页将所述字词文本语料的发音表示向量序列加上第二类型标注向量序列,得到更新后的发音表示向量序列;其中,所述第一类型标注向量序列和所述第二类型标注向量序列,用于对所述字词文本语料的字词表示向量序列和发音表示向量序列进行区分;将所述更新后的字词表示向量序列和所述更新后的发音表示向量序列进行拼接,得到拼接向量序列;通过所述语义特征提取模型对所述拼接向量序列进行特征提取处理,得到所述字词文本语料的融合语义特征。5.根据权利要求1所述的方法,其特征在于,所述语义特征