预训练语言模型的方法和装置-豆柴文库

预训练语言模型的方法和装置.pdf

2023-05-25

10金币

634KB

17页

睿达****的的

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112084317A(43)申请公布日2020.12.15(21)申请号202011009914.6(22)申请日2020.09.23(71)申请人支付宝（杭州）信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人王福东(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309代理人孙欣欣周良玉(51)Int.Cl.G06F16/332(2019.01)G06F16/33(2019.01)G06F16/35(2019.01)权利要求书3页说明书10页附图3页(54)发明名称预训练语言模型的方法和装置(57)摘要本说明书实施例提供一种预训练语言模型的方法和装置，方法包括：获取历史对话记录中的第一角色的第一语句，以及第二角色的第二语句；历史对话记录包括多轮对话中各轮对话的语句；将第一语句和第二语句拼接成第一样本；将第一样本中预设比例的字进行遮蔽，得到第二样本；对第二样本中任意一个字的字嵌入向量、字类型嵌入向量、位置嵌入向量和附加嵌入向量进行叠加，得到该字的初始字表达向量；将第二样本中各个字的初始字表达向量输入语言模型，基于包括第一任务在内的至少一项预训练任务对语言模型进行预训练，第一任务用于预测第二样本中被遮蔽的字。能够在预训练语言模型后，使得该语言模型更适用于对话领域的语言表征。CN112084317ACN112084317A权利要求书1/3页1.一种预训练语言模型的方法，所述语言模型用于对话领域中的语言表征，所述方法包括：获取对话领域的历史对话记录中的第一角色的第一语句，以及所述历史对话记录中的第二角色的第二语句；其中，所述历史对话记录包括所述第一角色和所述第二角色的多轮对话中各轮对话的语句；将所述第一语句和所述第二语句拼接成第一样本；将所述第一样本中预设比例的字用预设字进行遮蔽，得到第二样本；对所述第二样本中任意一个字的字嵌入向量、该字的字类型嵌入向量、该字的位置嵌入向量和该字对应的附加嵌入向量进行叠加，得到该字的初始字表达向量；所述附加嵌入向量包括该字对应的语句所属轮次的轮次嵌入向量、该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种；将所述第二样本中各个字的初始字表达向量输入所述语言模型，基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练，所述第一任务用于预测所述第二样本中被遮蔽的字。2.如权利要求1所述的方法，其中，所述第二样本中被遮蔽的字作为样本标签，用于确定所述第一任务的预测损失。3.如权利要求1所述的方法，其中，所述预训练任务还包括第二任务，所述第二任务用于预测所述第一语句和所述第二语句是否为顺次相连的两个语句。4.如权利要求3所述的方法，其中，所述第一样本对应于所述第二任务的正样本，所述第一语句和所述第二语句为顺次相连的两个语句；或者，所述第一样本对应于所述第二任务的负样本，所述第一语句和所述第二语句不为顺次相连的两个语句。5.如权利要求1所述的方法，其中，所述预训练任务还包括第三任务，所述第三任务用于预测所述第二样本中被遮蔽的字的拼音。6.如权利要求5所述的方法，其中，所述第二样本中被遮蔽的字的拼音作为样本标签，用于确定所述第三任务的预测损失。7.如权利要求1所述的方法，其中，所述附加嵌入向量包括该字对应的语句所属角色的角色嵌入向量、该字对应的拼音的拼音嵌入向量中的至少一种；所述预训练任务还包括第四任务，所述第四任务用于预测所述第一语句和所述第二语句是否为同一轮次的两个语句。8.如权利要求7所述的方法，其中，所述第一样本对应于所述第四任务的正样本，所述第一语句和所述第二语句为同一轮次的两个语句；或者，所述第一样本对应于所述第四任务的负样本，所述第一语句和所述第二语句不为同一轮次的两个语句。9.如权利要求1所述的方法，其中，所述基于包括第一任务在内的至少一项预训练任务对所述语言模型进行预训练之后，所述方法还包括：获取历史对话记录中的第一角色的第三语句和第二角色的第四语句；所述第三语句和所述第四语句属于同一轮次；将所述第三语句和所述第四语句拼接成第三样本；将所述第三样本中各个字的初始字表达向量输入预训练之后的所述语言模型，得到所述第三样本的语言表征向量；2CN112084317A权利要求书2/3页将所述第三样本的语言表征向量输入意图识别模型，得到所述第三样本对应的预测意图类别；根据所述第三样本对应的实际意图类别和预测意图类别，对所述语言模型进行微调。10.如权利要求9所述的方法，其中，所述对所述语言模型进行微调之后，所述方法还包括：获取当前对话中的第一角色的第五语句和第二角色的第六语句；所述第五语句和所述第六语句属于同一轮次；将所述第五语句

相关资料

预训练语言模型的方法和装置.pdf

本说明书实施例提供一种预训练语言模型的方法和装置，方法包括：获取历史对话记录中的第一角色的第一语句，以及第二角色的第二语句；历史对话记录包括多轮对话中各轮对话的语句；将第一语句和第二语句拼接成第一样本；将第一样本中预设比例的字进行遮蔽，得到第二样本；对第二样本中任意一个字的字嵌入向量、字类型嵌入向量、位置嵌入向量和附加嵌入向量进行叠加，得到该字的初始字表达向量；将第二样本中各个字的初始字表达向量输入语言模型，基于包括第一任务在内的至少一项预训练任务对语言模型进行预训练，第一任务用于预测第二样本中被遮蔽的字

2023-05-25

634KB

建立预训练语言模型的方法、语义解析方法和装置.pdf

本申请实施例公开了一种建立预训练语言模型的方法、语义解析方法和装置。技术方案包括：获取第一训练数据，第一训练数据包括多于一组的多轮对话样本对和关联表格的模式信息，多轮对话样本对包括一个对话中的多个由自然语言文本及其对应的结构化查询语言(SQL)语句构成的样本对；利用第一训练数据训练得到包括嵌入(Embedding)层和转换(Transformer)网络的预训练语言模型；在训练过程中，将自然语言文本、该自然语言文本的上下文以及模式信息构成的输入序列输入预训练语言模型，执行会话语义解析任务、对话编辑策略预测任

2023-08-20

1.5MB

语言模型的训练及分词预测方法和装置、语言模型.pdf

本说明书实施例提供一种语言模型的训练及分词预测方法和装置、语言模型，采用分词及其笔画集合来训练语言模型以及预测目标分词，由于提取出分词级以及笔画级的特征，特征粒度更小，因此，训练出的语言模型准确度较高，预测目标分词的准确性也越高。

2023-05-25

531KB

预训练语言模型的生成方法、装置、电子设备和存储介质.pdf

本公开提供了一种预训练语言模型的生成方法、装置、电子设备和存储介质，涉及计算机技术领域，具体涉及自然语言处理、知识图谱和深度学习等人工智能技术领域。具体实现方案为：获取样本文档；对样本文档进行解析，以获取样本文档的排版结构信息和文字信息；获取预训练语言模型的多个任务模型；根据排版结构信息和文字信息对预训练语言模型和多个任务模型进行联合训练，以生成训练之后的预训练语言模型；以及根据排版结构信息和文字信息对训练之后的预训练语言模型进行微调训练，以生成目标预训练语言模型。由此，目标预训练语言模型可以快速的进行任

2023-07-25

874KB

预训练语言模型的构建方法、装置、电子终端及存储介质.pdf

本发明实施例公开了一种预训练语言模型的构建方法、装置、电子终端及存储介质，该方法包括：获取对话数据；根据各预训练任务的任务要求对对话数据进行处理，得到训练数据以及训练数据在各预训练任务下的标签数据；各预训练任务包括：全词掩码预测任务、角色预测任务、轮次内顺序互换预测任务和轮次间顺序互换预测任务；基于训练数据确定语言模型的输入数据，通过语言模型对输入数据执行各预训练任务，得到各执行结果；根据各执行结果以及训练数据在各预训练任务下的标签数据，对语言模型进行训练，得到预训练语言模型；预训练语言模型用于对对话数据

2023-08-19

1.3MB