预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113988267A(43)申请公布日2022.01.28(21)申请号202111295501.3(22)申请日2021.11.03(71)申请人携程旅游信息技术(上海)有限公司地址201203上海市浦东新区自由贸易试验区碧波路518号302室(72)发明人王嘉欣吴鹏李健(74)专利代理机构上海隆天律师事务所31282代理人徐莉钟宗(51)Int.Cl.G06N3/04(2006.01)G06N3/08(2006.01)G06N5/02(2006.01)G06F16/35(2019.01)G06F16/332(2019.01)权利要求书3页说明书11页附图6页(54)发明名称用户意图识别模型的生成方法、用户意图识别方法和设备(57)摘要本发明涉及人工智能技术领域,提供一种用户意图识别模型的生成方法、用户意图识别方法和设备。生成方法包括:基于逐层知识蒸馏训练包含多层编码网络的教师模型,获得目标教师模型的每层编码网络的输出Logits;基于包含多层卷积网络的学生模型,根据包含学生模型的输出结果与训练数据的真实标签之间的交叉熵损失、及各层卷积网络的输出结果与各层编码网络的输出Logits之间的交叉熵损失的目标损失函数,进行可微神经网络结构搜索,获得目标学生模型;根据目标学生模型的输出结果与真实标签之间的交叉熵损失,对目标学生模型进行微调,获得用户意图识别模型。本发明通过知识蒸馏、可微搜索和微调,自动获得用户意图识别模型,减少模型参数量和硬件资源消耗。CN113988267ACN113988267A权利要求书1/3页1.一种用户意图识别模型的生成方法,其特征在于,包括:基于逐层知识蒸馏训练包含多层编码网络的教师模型,获得目标教师模型的每层编码网络的输出Logits;基于包含多层卷积网络的学生模型,根据包含所述学生模型的输出结果与训练数据的真实标签之间的交叉熵损失、及各层所述卷积网络的输出结果与各层所述编码网络的输出Logits之间的交叉熵损失的目标损失函数,进行可微神经网络结构搜索,获得目标学生模型;根据所述目标学生模型的输出结果与所述真实标签之间的交叉熵损失,对所述目标学生模型进行微调,获得用户意图识别模型。2.如权利要求1所述的生成方法,其特征在于,所述基于逐层知识蒸馏训练包含多层编码网络的教师模型,包括:在所述教师模型中插入对应每层所述编码网络的Probe分类器;利用所述训练数据,基于知识蒸馏训练所述教师模型,以通过所述Probe分类器获得每层所述编码网络的输出Logits。3.如权利要求2所述的生成方法,其特征在于,所述获得目标教师模型的每层编码网络的输出Logits,包括:对所述教师模型进行预设次训练;获得每层所述编码网络在所述预设次训练中的最优输出,作为所述目标教师模型的每层所述编码网络的输出Logits。4.如权利要求1所述的生成方法,其特征在于,所述教师模型采用基于转换器的双向编码表征BERT模型;每层所述卷积网络的候选算子包括:具有不同卷积核尺寸的多种卷积、具有不同卷积核尺寸的多种空洞卷积、平均池化、最大池化、Identity函数和Zero函数。5.如权利要求4所述的生成方法,其特征在于,所述进行可微神经网络结构搜索时,以每层所述卷积网络为一个搜索单元,每个所述搜索单元包括两个输入节点、一个输出节点和多个中间节点;每个所述搜索单元中,两个所述输入节点为前两个搜索单元的输出节点,每个所述中间节点连接所述输出节点,每个所述中间节点具有两条入边,每条入边选自所述候选算子。6.如权利要求1所述的生成方法,其特征在于,所述目标损失函数还包括进行可微神经网络结构搜索的效率感知损失;所述目标损失函数的公式为:其中,为所述学生模型的输出结果与所述真实标签之间的交叉熵损失,为各层所述卷积网络的输出结果与各层所述编码网络的输出Logits之间的交叉熵损失,为所述效率感知损失,γ和β为超参数。7.如权利要求6所述的生成方法,其特征在于,第i层卷积网络的输出结果与第j层编码2CN113988267A权利要求书2/3页网络的输出Logits之间的交叉熵损失的公式为:其中,为所述第j层编码网络上的Probe分类器,为所述第j层编码网络的隐藏表示,为所述第j层编码网络的输出Logits,为所述第i层卷积网络上的Probe分类器,为所述第i层卷积网络的隐藏表示,为所述第i层卷积网络的输出结果,T为温度系数;其中,M为所述训练数据的样本数,K为所述学生模型的卷积网络层数,ωi,m为所述交叉熵损失的归一化权重;其中,ym为第m个样本的标签,正类为1,负类为0。8.如权利要求6所述的生成方法,其特征在于:其中,K为所述学生模型的卷积网络层数,Kmax为预定义的最大层数,oi,