预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共38页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113673260A(43)申请公布日2021.11.19(21)申请号202010413915.0(22)申请日2020.05.15(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人陈道源李雅亮邱明辉王桢李博放丁博麟邓洪波黄俊林伟周靖人(74)专利代理机构北京博浩百睿知识产权代理有限责任公司11134代理人谢湘宁张文华(51)Int.Cl.G06F40/56(2020.01)权利要求书6页说明书25页附图6页(54)发明名称模型处理方法、装置、存储介质和处理器(57)摘要本发明公开了一种模型处理方法、装置、存储介质和处理器。其中,该方法包括:获取原始语言模型;确定需要原始语言模型处理的任务;基于任务的特征对原始语言模型进行转换,得到用于处理任务的目标语言模型。本发明解决了对模型难以进行有效使用的技术问题的技术问题。CN113673260ACN113673260A权利要求书1/6页1.一种模型处理方法,其特征在于,包括:获取原始语言模型;确定需要所述原始语言模型处理的任务;基于所述任务的特征对所述原始语言模型进行转换,得到用于处理所述任务的目标语言模型。2.根据权利要求1所述的方法,其特征在于,基于所述任务的特征对所述原始语言模型进行转换,得到用于处理所述任务的目标语言模型,包括:将所述任务的特征输入至神经网络架构搜索中,得到搜索结果;基于所述搜索结果确定所述目标语言模型。3.根据权利要求2所述的方法,其特征在于,将所述任务的特征输入至神经网络架构搜索中,得到搜索结果,包括:基于所述任务的特征将所述原始语言模型训练为第一语言模型;将所述第一语言模型输入至所述神经网络架构搜索中,得到所述搜索结果。4.根据权利要求3所述的方法,其特征在于,将所述第一语言模型输入至所述神经网络架构搜索中,得到所述搜索结果,包括:将所述原始语言模型中的公共知识,提取为第一知识损失;将所述第一语言模型中与所述任务对应的知识,提取为所述第一语言模型的第二知识损失;在所述神经网络架构搜索中基于所述第一知识损失和所述第二知识损失进行搜索,得到所述搜索结果。5.根据权利要求4所述的方法,其特征在于,在所述神经网络架构搜索中基于所述第一知识损失和所述第二知识损失进行搜索,得到所述搜索结果,包括:基于所述第一知识损失和所述第二知识损失确定提示信息;在所述神经网络架构搜索对应的架构搜索空间中,搜索所述提示信息所指示的模型;基于所述搜索结果确定所述目标语言模型,包括:将所述提示信息所指示的模型确定为所述目标语言模型。6.根据权利要求5所述的方法,其特征在于,基于所述第一知识损失和所述第二知识损失确定提示信息,包括:在知识聚合器中,基于所述第一知识损失和所述第二知识损失建立跨任务关系,其中,所述跨任务关系用于指示多个任务之间的关系;基于所述跨任务关系确定所述提示信息。7.根据权利要求6所述的方法,其特征在于,在知识聚合器中,基于所述第一知识损失和所述第二知识损失建立跨任务关系,包括:在所述知识聚合器中,记录所述原始语言模型的第一知识损失序列和所述第一语言模型的第二知识损失序列,其中,所述第一知识损失序列包括所述原始语言模型在至少一个时刻训练的知识损失,所述第二知识损失序列包括所述第一语言模型在至少一个时刻训练的所述第二知识损失;基于所述原始语言模型的第一知识损失序列和所述第一语言模型的第二知识损失序列对所述任务进行聚类,得到至少一个元任务组,其中,所述元任务组包括相似度大于第一2CN113673260A权利要求书2/6页阈值的至少两个任务;基于所述元任务组的目标值进行归一化处理,得到所述元任务组的权重,其中,所述目标值用于指示所述元任务组的平均分类性能;基于所述元任务组的权重建立所述跨任务关系。8.根据权利要求4所述的方法,其特征在于,将所述原始语言模型中的公共知识,提取为第一知识损失,包括:在知识分解器中,将所述原始语言模型中的公共知识,提取为所述第一知识损失;将所述第一语言模型中与所述任务对应的知识,提取为第二知识损失,包括:在所述知识分解器中,将所述第一语言模型中与所述任务对应的知识,提取为所述第二知识损失。9.根据权利要求8所述的方法,其特征在于,所述知识分解器为基于所述原始语言模型和所述第一语言模型训练得到的一组探针分类器。10.根据权利要求3所述的方法,其特征在于,基于所述任务的特征将所述原始语言模型训练为第一语言模型,包括:向所述原始语言模型中添加所述任务的目标任务参数;在所述任务的新增语料上训练所述目标任务参数,得到所述第一语言模型。11.根据权利要求10所述的方法,其特征在于,在所述任务的新增语料上训练所述目标任务参数时,所