预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113807397A(43)申请公布日2021.12.17(21)申请号202110934032.9(22)申请日2021.08.13(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人刘佳祥陈徐屹卢宇翔冯仕堃孙宇(74)专利代理机构北京鸿德海业知识产权代理有限公司11412代理人田宏宾(51)Int.Cl.G06K9/62(2006.01)G06F40/30(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书8页附图4页(54)发明名称语义表示模型的训练方法、装置、设备和存储介质(57)摘要本公开提供了一种语义表示模型的训练方法、装置、设备和存储介质,计算机技术领域,具体涉及自然语言处理、深度学习等技术领域。语义表示模型的训练方法包括:获取当前轮对应的当前步数;基于所述当前步数,确定语义表示模型采用的超参数的当前值;在所述当前轮中,基于所述超参数的所述当前值,训练所述语义表示模型。本公开可以提高语义表示模型的训练速度,节省计算资源。CN113807397ACN113807397A权利要求书1/3页1.一种语义表示模型的训练方法,包括:获取当前轮对应的当前步数;基于所述当前步数,确定语义表示模型采用的超参数的当前值;在所述当前轮中,基于所述超参数的所述当前值,训练所述语义表示模型。2.根据权利要求1所述的方法,其中,所述超参数包括:学习率、批处理样本量或者序列长度,所述基于所述当前步数,确定语义表示模型采用的超参数的当前值,包括:若所述当前步数小于或等于预设步数,基于所述超参数对应的初始值和最大值确定步长;以及,基于所述当前步数和所述步长,确定与所述当前步数成正向关系的所述超参数的当前值。3.根据权利要求1所述的方法,其中,所述超参数包括:随机丢失率,所述基于所述当前步数,确定语义表示模型采用的超参数的当前值,包括:若所述当前步数小于或等于预设步数,确定所述随机丢失率对应的当前值保持为第一值;若所述当前步数大于预设步数,确定所述随机丢失率对应的当前值保持为第二值;所述第二值大于所述第一值。4.根据权利要求1所述的方法,其中,所述超参数包括:学习率,所述基于所述当前步数,确定语义表示模型采用的超参数的当前值,包括:若所述当前步数大于预设步数,基于所述超参数对应的初始值和最大值确定步长;以及,基于所述当前步数和所述步长,确定与所述当前步数成反向关系的所述超参数的当前值。5.根据权利要求1所述的方法,其中,所述超参数包括:批处理样本量或者序列长度,所述基于所述当前步数,确定语义表示模型采用的超参数的当前值,包括:若所述当前步数大于预设步数,保持所述超参数的当前值为对应的超参数最大值。6.根据权利要求1‑5任一项所述的方法,其中,所述超参数包括:学习率、批处理样本量、序列长度和随机丢失率,所述在所述当前轮中,基于所述超参数的所述当前值,训练所述语义表示模型,包括:在所有样本中选择数量为所述批处理样本量的样本作为当前批次样本,所述样本包括:文本样本、图像样本或者语音样本;基于所述序列长度处理所述当前批次样本,以获得长度为所述序列长度的待处理样本;基于所述随机丢弃率确定待采用神经元;基于所述待采用神经元,对所述待处理样本进行处理,以获得所述待处理样本对应的预测值;基于所述预测值和所述待处理样本对应的真实值,构建损失函数;基于所述损失函数和所述学习率,调整所述语义表示模型的模型参数。7.一种语义表示模型的训练装置,包括:获取模块,用于获取当前轮对应的当前步数;确定模块,用于基于所述当前步数,确定语义表示模型采用的超参数的当前值;训练模块,用于在所述当前轮中,基于所述超参数的所述当前值,训练所述语义表示模2CN113807397A权利要求书2/3页型。8.根据权利要求7所述的方法,其中,所述超参数包括:学习率、批处理样本量或者序列长度,所述确定模块具体用于:若所述当前步数小于或等于预设步数,基于所述超参数对应的初始值和最大值确定步长;以及,基于所述当前步数和所述步长,确定与所述当前步数成正向关系的所述超参数的当前值。9.根据权利要求7所述的方法,其中,所述超参数包括:随机丢失率,所述基于所述当前步数,所述确定模块具体用于:若所述当前步数小于或等于预设步数,确定所述随机丢失率对应的当前值保持为第一值;若所述当前步数大于预设步数,确定所述随机丢失率对应的当前值保持为第二值;所述第二值大于所述第一值。10.根据权利要求7所述的方法,其中,所述超参数包括:学习率,所述基于所述当前步数,所述确定模块具体用于:若所述当前步数大于预设步数,基于所述超参数对应的初始值和最大值