预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186043A(43)申请公布日2022.03.15(21)申请号202111505109.7(22)申请日2021.12.10(71)申请人北京三快在线科技有限公司地址100080北京市海淀区北四环西路9号2106-030(72)发明人李如寐王思睿张富峥武威(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人谢冬寒(51)Int.Cl.G06F16/332(2019.01)G06F16/33(2019.01)G06K9/62(2022.01)权利要求书2页说明书11页附图6页(54)发明名称预训练方法、装置、设备和存储介质(57)摘要本申请公开了一种预训练方法、装置、设备和存储介质,属于计算机技术领域。所述方法包括:得到字符掩盖处理后的初始文本句;基于字符掩盖处理后的初始文本句和句前的附加字符,得到目标文本句;确定目标文本句对应的mask矩阵,mask矩阵包括多个元素,每个元素用于向待训练的特征提取模型指示在目标文本句中元素对应的两个字符在特征提取过程中的运算关联度,句前的附加字符对应的元素不为0;基于初始文本句、目标文本句和mask矩阵,对待训练的特征提取模型进行训练。采用本申请,不仅仅可以得到目标文本句中每个字符对应的特征向量,还可以得到目标文本句对应的特征向量,无需再另外进行其他训练,减少了数据运算资源和运算时间。CN114186043ACN114186043A权利要求书1/2页1.一种预训练方法,其特征在于,所述方法包括:对初始文本句进行字符掩盖处理,得到字符掩盖处理后的初始文本句;基于所述字符掩盖处理后的初始文本句和句前的附加字符,得到目标文本句;确定所述目标文本句对应的掩盖mask矩阵,其中,所述mask矩阵包括多个元素,每个元素用于向待训练的特征提取模型指示在所述目标文本句中所述元素对应的两个字符在特征提取过程中的运算关联度,所述mask矩阵中所述句前的附加字符对应的元素不为0;基于所述初始文本句、所述目标文本句和所述mask矩阵,对所述待训练的特征提取模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述对初始文本句进行字符掩盖处理,得到字符掩盖处理后的初始文本句,包括:在所述初始文本句中,随机选取预设比例的字符,作为参考字符;对于每个参考字符,基于多种处理分别对应的选择概率,在所述多种处理中,选择所述参考字符对应的目标处理,对所述参考字符进行所述目标处理,得到所述字符掩盖处理后的初始文本句,其中,所述多种处理包括替换为mask字符的处理、不变处理和替换为任意字符的处理中的至少一种。3.根据权利要求2所述的方法,其特征在于,在所述mask矩阵中,所述mask字符和文本字符对应的元素是0,所述文本字符和所述文本字符对应的元素、以及所述句前的附加字符对应的元素是1,其中,所述文本字符是在所述目标文本句中除所述mask字符和所述附加字符以外的其他字符。4.根据权利要求2所述的方法,其特征在于,所述基于所述初始文本句、所述目标文本句和所述mask矩阵,对所述待训练的特征提取模型进行训练,包括:基于预先存储的字符与标识ID之间的对应关系,获取所述参考字符的实际ID;将所述目标文本句和所述mask矩阵,输入所述待训练的特征提取模型,得到所述目标文本句中的每个字符对应的特征信息;将所述目标文本句中的每个字符对应的特征信息,输入待训练的归一化softmax模块,得到所述目标文本句中的每个字符的预测ID;基于所述参考字符的实际ID和所述参考字符的预测ID,计算损失值;基于所述损失值,对所述待训练的特征提取模型和所述待训练的softmax模块进行训练。5.根据权利要求4所述的方法,其特征在于,所述基于所述参考字符的实际ID和所述参考字符的预测ID,计算损失值,包括:对于每个参考字符,计算所述参考字符的实际ID与所述参考字符的预测ID之间的交叉熵误差值;将所有的参考字符对应的交叉熵误差值之间的平均值,确定为所述损失值。6.根据权利要求1‑5任一项所述的方法,其特征在于,所述基于所述字符掩盖处理后的初始文本句和句前的附加字符,得到目标文本句,包括:在所述字符掩盖处理后的初始文本句前加句前的附加字符,得到参考文本句;确定所述参考文本句的字符数目;若所述参考文本句的字符数目小于预设字符数目,则在所述参考文本句后加至少一个2CN114186043A权利要求书2/2页句后的附加字符,得到目标文本句,其中,所述目标文本句的字符数目等于所述预设字符数目。7.根据权利要求6所述的方法,其特征在于,在所述mask矩阵中,所述句后的附加字符对应的元素是0。8.一种预训练装置,其特征在于,所述装置包括:第一确定模块,用于对初始文本句进行字符掩盖