预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114154395A(43)申请公布日2022.03.08(21)申请号202111301382.8(22)申请日2021.11.04(71)申请人北京搜狗科技发展有限公司地址100084北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间(72)发明人凡子威(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人苏培华(51)Int.Cl.G06F30/27(2020.01)G06K9/62(2022.01)权利要求书3页说明书13页附图3页(54)发明名称一种模型处理方法、装置和用于模型处理的装置(57)摘要本发明实施例提供了一种模型处理方法、装置和用于模型处理的装置。所述方法包括:获取业务数据;将所述业务数据分别输入至预训练模型和初始业务模型,通过自注意力机制对所述业务数据进行处理,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,确定所述预训练模型的建模单元中的目标字符;根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出,对所述预训练模型和所述初始业务模型进行知识蒸馏,得到目标业务模型。本发明实施例可以避免知识蒸馏过程中信息的丢失,提升业务模型的模型性能。CN114154395ACN114154395A权利要求书1/3页1.一种模型处理方法,其特征在于,所述方法包括:获取业务数据;将所述业务数据分别输入至预训练模型和初始业务模型,通过自注意力机制对所述业务数据进行处理,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个所述预训练模型的建模单元对应一个全连接层输出,一个所述初始业务模型的建模单元对应一个全连接层输出;将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,确定所述预训练模型的建模单元中的目标字符;根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出,对所述预训练模型和所述初始业务模型进行知识蒸馏,得到目标业务模型。2.根据权利要求1所述的方法,其特征在于,所述将所述业务数据分别输入至预训练模型和初始业务模型,通过自注意力机制对所述业务数据进行处理,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出,包括:将所述业务数据输入至预训练模型的自注意力网络层进行处理,得到所述业务数据对应的第一隐层向量;将所述第一隐层向量输入至所述预训练模型的全连接层进行计算,得到所述预训练模型的全连接层输出;将所述业务数据输入至初始业务模型的自注意力网络层进行处理,得到所述业务数据对应的第二隐层向量;将所述第二隐层向量输入至所述初始业务模型的全连接层进行计算,得到所述预训练模型的全连接层输出。3.根据权利要求1所述的方法,其特征在于,所述将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,确定所述预训练模型的建模单元中的目标字符,包括:若第一字符集合构成第一分词,则确定所述第一字符集合的最后一个字符为目标字符,其中,所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任一建模单元。4.根据权利要求1所述的方法,其特征在于,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。5.根据权利要求4所述的方法,其特征在于,所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签;所述根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出,对所述预训练模型和所述初始业务模型进行知识蒸馏,得到目标业务模型,包括:根据所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出,计算所述预训练模型的第一损失值;根据所述初始业务模型的全连接层输出和所述文本数据对应的标点符号标签,计算所述初始业务模型的第二损失值;对所述第一损失值和所述第二损失值进行加权求和,得到所述预训练模型和所述初始业务模型的联合损失值;2CN114154395A权利要求书2/3页根据所述联合损失值对所述预训练模型和所述初始业务模型进行知识蒸馏,得到目标业务模型。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取语音数据;对所述语音数据进行语音识别处理,得到所述语音数据对应的文本数据;利用所述目标业务模型,为所述语音数据对应的文本数据添加标点符号;输出添加标点符号后的文本数据。7.根据权利要求1至6任一所述的方法,其特征在于,所述业务数据包括对语音数据进行语音识别处理后得到的文本数据。8.一种模型处理装置,其特征在于,所述装置包括:业务数据获取模块,