语言模型的训练方法及装置-豆柴文库

语言模型的训练方法及装置.pdf

2023-07-24

10金币

1.4MB

29页

努力****骞北

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共29页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114330290A(43)申请公布日2022.04.12(21)申请号202011053142.6(22)申请日2020.09.29(71)申请人北京三星通信技术研究有限公司地址100028北京市朝阳区太阳宫中路12号楼15层1503申请人三星电子株式会社(72)发明人庄毅萌(74)专利代理机构北京铭硕知识产权代理有限公司11286代理人王皎彤苏银虹(51)Int.Cl.G06F40/211(2020.01)G06F40/284(2020.01)G06F40/30(2020.01)权利要求书2页说明书18页附图8页(54)发明名称语言模型的训练方法及装置(57)摘要提供一种语言模型的训练方法及装置。该语言模型的训练方法包括：接收输入的训练数据，其中，训练数据包括给定词和所述给定词的上下文；基于所述给定词和所述给定词的上下文，生成训练数据在目标语言中的词的上下文相关向量的代理，并且基于所述给定词的上下文，生成训练数据在源语言中的上下文相关的词向量；基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数；并且基于所述损失函数进行训练，从而实现跨语言对齐的目的，提高了语言模型的质量。CN114330290ACN114330290A权利要求书1/2页1.一种语言模型的训练方法，所述语言模型包括源语言部分和目标语言部分，所述方法包括：接收输入的训练数据，其中，训练数据包括给定词和所述给定词的上下文；基于所述给定词和所述给定词的上下文，生成训练数据在目标语言中的词的上下文相关向量的代理，并且基于所述给定词的上下文，生成训练数据在源语言中的上下文相关的词向量；基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数；并且基于所述损失函数进行训练。2.根据权利要求1所述的方法，其中，生成训练数据在目标语言中的上下文相关向量的代理的步骤包括：获取所述给定词在目标语言中的映射词作为目标词；根据所述给定词在目标语言中的词频进行采样，得到多个负例词；并且基于目标词和所述多个负例词确定词的上下文相关向量的代理。3.根据权利要求2所述的方法，其中，基于目标词和所述多个负例词确定上下文相关向量的代理的步骤包括：通过查询代理向量矩阵，得到子词的上下文相关向量的代理；并且对子词的上下文相关向量的代理进行子词到词的变换，得到词的上下文相关向量的代理。4.根据权利要求1所述的方法，其中，所述损失函数表示为其中，c表示上下文，i和j表示源语言词，i'表示i的目标词，d(wc,i,wj)表示wc,i和wj这两个向量之间的距离，d(wc,i,wi')表示wc,i和wi'这两个向量之间的距离，d表示向量wc,i、wi'和wj的向量维度。5.根据权利要求1所述的方法，还包括：计算词在上下文中的平均向量，作为词的上下文相关向量的代理；并且将词的上下文相关向量的代理存储在代理向量矩阵中。6.根据权利要求5所述的方法，还包括：根据对代理向量矩阵中的词的上下文相关向量的代理进行更新，其中，α是超参数，ec,t表示上下文c中的子词t的上下文相关向量，和分别表示更新前和更新后的词的上下文相关向量的代理。7.一种语言模型的训练装置，所述语言模型包括源语言部分和目标语言部分，所述装置包括：数据接收单元，被配置为接收输入的训练数据，其中，训练数据包括给定词和所述给定词的上下文；向量生成单元，被配置为基于所述给定词和所述给定词的上下文，生成训练数据在目2CN114330290A权利要求书2/2页标语言中的词的上下文相关向量的代理，并且基于所述给定词的上下文，生成训练数据在源语言中的上下文相关的词向量；损失函数确定单元，被配置为基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数；和训练单元，被配置为基于所述损失函数进行训练。8.根据权利要求7所述的装置，其中，向量生成单元被配置为：获取所述给定词在目标语言中的映射词作为目标词；根据所述给定词在目标语言中的词频进行采样，得到多个负例词；并且基于目标词和所述多个负例词确定词的上下文相关向量的代理。9.根据权利要求8所述的装置，其中，向量生成单元被配置为：通过查询代理向量矩阵，得到子词的上下文相关向量的代理；并且对子词的上下文相关向量的代理进行子词到词的变换，得到词的上下文相关向量的代理。10.根据权利要求7所述的装置，其中，所述损失函数表示为其中，c表示上下文，i和j表示源语言词，i'表示i的目标词，d(wc,i,wj)表示wc,i和wj这两个向量之间的距离，d(wc,i,wi')表示wc,i和wi'这两个向量之间的距离，d表示向量wc,i、wi'和wj的向量维度

相关资料

语言模型的训练方法及装置.pdf

提供一种语言模型的训练方法及装置。该语言模型的训练方法包括：接收输入的训练数据，其中，训练数据包括给定词和所述给定词的上下文；基于所述给定词和所述给定词的上下文，生成训练数据在目标语言中的词的上下文相关向量的代理，并且基于所述给定词的上下文，生成训练数据在源语言中的上下文相关的词向量；基于词的上下文相关向量的代理和上下文相关的词向量确定源语言和目标语言的对齐概率作为损失函数；并且基于所述损失函数进行训练，从而实现跨语言对齐的目的，提高了语言模型的质量。

2023-07-24

1.4MB

语言转换模型的训练方法及装置.pdf

本申请实施例提供了一种语言转换模型的训练方法及装置，包括：获取数据表中的数据元素；生成用于查询数据元素的结构化查询语句样本和自然语句样本，自然语句样本中的词语与数据表中的数据元素之间具有映射关系；基于数据元素、自然语句样本、结构化查询语句样本和映射关系，对初始语言转换模型进行训练，得到目标语言转换模型。本申请中整个训练数据生成过程降低了人工参与度，提高了训练数据的生成效率和质量。另外，本申请可以基于数据表的数据元素与自然语句中的词语之间的显性的映射关系，进行语言转换模型的训练，从而使得训练过程中可以有效挖

2023-07-24

1.1MB

一种语言模型的训练方法及装置.pdf

本申请公开了一种语言模型的训练方法及装置，所述方法包括：在获取到包括大量样本文本的语言模型训练数据后，可以将这些样本文本进行分词处理，以得到每一分词的分词标签，其中，分词标签包括对应分词中的每一字在对应分词中的位置信息，接着，可以根据这些样本文本中每一分词的分词标签，对语言模型进行训练。可见，本申请将样本文本的分词标签作为训练数据对语言模型进行训练，使得训练语言模型所使用的数据更为全面，从而能够降低语言模型的PPL值，提升了语言模型的效果。

2023-12-04

578KB

自然语言生成模型的训练方法和装置.pdf

本公开涉及一种自然语言生成模型的训练方法和装置，涉及计算机技术领域。该训练方法包括：以各历史时刻的生成词为当前时刻的状态，以当前时刻的生成词的输出为动作，将自然语言生成处理建模为强化学习模型；根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数；根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数；根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型。

2023-06-14

586KB

一种语言模型的训练方法及装置、设备.pdf

本发明提供一种语言模型的训练方法及装置、设备，所述方法包括：采用离线训练方式获取通用语言模型，并对该通用语言模型进行裁剪，获得裁剪后的语言模型；采用在线训练方式获取预设时间段内日志的日志语言模型；将所述裁剪后的语言模型和所述日志语言模型进行融合，获得用于进行第一遍解码的第一融合语言模型；将所述通用语言模型和所述日志语言模型进行融合，获得用于进行第二遍解码的第二融合语言模型。上述方法解决现有技术离线获取的语言模型对新的语料覆盖不好，导致语言识别率降低的问题。

2023-12-07

805KB