预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114330290A(43)申请公布日2022.04.12(21)申请号202011053142.6(22)申请日2020.09.29(71)申请人北京三星通信技术研究有限公司地址100028北京市朝阳区太阳宫中路12号楼15层1503申请人三星电子株式会社(72)发明人庄毅萌(74)专利代理机构北京铭硕知识产权代理有限公司11286代理人王皎彤苏银虹(51)Int.Cl.G06F40/211(2020.01)G06F40/284(2020.01)G06F40/30(2020.01)权利要求书2页说明书18页附图8页(54)发明名称语言模型的训练方法及装置(57)摘要提供一种语言模型的训练方法及装置。该语言模型的训练方法包括:接收输入的训练数据,其中,训练数据包括给定词和所述给定词的上下文;基于所述给定词和所述给定词的上下文,生成训练数据在目标语言中的词的上下文相关向量的代理,并且基于所述给定词的上下文,生成训练数据在源语言中的上下文相关的词向量;基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数;并且基于所述损失函数进行训练,从而实现跨语言对齐的目的,提高了语言模型的质量。CN114330290ACN114330290A权利要求书1/2页1.一种语言模型的训练方法,所述语言模型包括源语言部分和目标语言部分,所述方法包括:接收输入的训练数据,其中,训练数据包括给定词和所述给定词的上下文;基于所述给定词和所述给定词的上下文,生成训练数据在目标语言中的词的上下文相关向量的代理,并且基于所述给定词的上下文,生成训练数据在源语言中的上下文相关的词向量;基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数;并且基于所述损失函数进行训练。2.根据权利要求1所述的方法,其中,生成训练数据在目标语言中的上下文相关向量的代理的步骤包括:获取所述给定词在目标语言中的映射词作为目标词;根据所述给定词在目标语言中的词频进行采样,得到多个负例词;并且基于目标词和所述多个负例词确定词的上下文相关向量的代理。3.根据权利要求2所述的方法,其中,基于目标词和所述多个负例词确定上下文相关向量的代理的步骤包括:通过查询代理向量矩阵,得到子词的上下文相关向量的代理;并且对子词的上下文相关向量的代理进行子词到词的变换,得到词的上下文相关向量的代理。4.根据权利要求1所述的方法,其中,所述损失函数表示为其中,c表示上下文,i和j表示源语言词,i'表示i的目标词,d(wc,i,wj)表示wc,i和wj这两个向量之间的距离,d(wc,i,wi')表示wc,i和wi'这两个向量之间的距离,d表示向量wc,i、wi'和wj的向量维度。5.根据权利要求1所述的方法,还包括:计算词在上下文中的平均向量,作为词的上下文相关向量的代理;并且将词的上下文相关向量的代理存储在代理向量矩阵中。6.根据权利要求5所述的方法,还包括:根据对代理向量矩阵中的词的上下文相关向量的代理进行更新,其中,α是超参数,ec,t表示上下文c中的子词t的上下文相关向量,和分别表示更新前和更新后的词的上下文相关向量的代理。7.一种语言模型的训练装置,所述语言模型包括源语言部分和目标语言部分,所述装置包括:数据接收单元,被配置为接收输入的训练数据,其中,训练数据包括给定词和所述给定词的上下文;向量生成单元,被配置为基于所述给定词和所述给定词的上下文,生成训练数据在目2CN114330290A权利要求书2/2页标语言中的词的上下文相关向量的代理,并且基于所述给定词的上下文,生成训练数据在源语言中的上下文相关的词向量;损失函数确定单元,被配置为基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数;和训练单元,被配置为基于所述损失函数进行训练。8.根据权利要求7所述的装置,其中,向量生成单元被配置为:获取所述给定词在目标语言中的映射词作为目标词;根据所述给定词在目标语言中的词频进行采样,得到多个负例词;并且基于目标词和所述多个负例词确定词的上下文相关向量的代理。9.根据权利要求8所述的装置,其中,向量生成单元被配置为:通过查询代理向量矩阵,得到子词的上下文相关向量的代理;并且对子词的上下文相关向量的代理进行子词到词的变换,得到词的上下文相关向量的代理。10.根据权利要求7所述的装置,其中,所述损失函数表示为其中,c表示上下文,i和j表示源语言词,i'表示i的目标词,d(wc,i,wj)表示wc,i和wj这两个向量之间的距离,d(wc,i,wi')表示wc,i和wi'这两个向量之间的距离,d表示向量wc,i、wi'和wj的向量维度