预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115964486A(43)申请公布日2023.04.14(21)申请号202211512635.0G06F16/33(2019.01)(22)申请日2022.11.28G06F40/30(2020.01)(71)申请人北京大学(青岛)计算社会科学研究院地址266555山东省青岛市黄岛区唐岛湾漓江西路877号申请人海尔优家智能科技(北京)有限公司青岛海尔科技有限公司(72)发明人张枫刘建国陈薇赵培王腾蛟(74)专利代理机构北京君尚知识产权代理有限公司11200专利代理师司立彬(51)Int.Cl.G06F16/35(2019.01)权利要求书2页说明书7页附图1页(54)发明名称一种基于数据增强的小样本意图识别方法(57)摘要本发明公开了一种基于数据增强的小样本意图识别方法,其步骤包括:1)获取用户意图识别数据集,并对其中每一条用户查询语句标注其意图,作为一样本,得到小样本意图识别数据集;构建小样本意图识别数据集的元任务;2)将小样本意图识别数据集输入自然语言推断生成模型,生成样本的扩展样本并构建扩展元任务;3)根据每一样本所属元任务的样本集,将每一样本映射到特征空间中,得到样本在对应元任务中的特征向量;4)将每一样本在各元任务中的特征向量融合作为该样本的最终向量;5)利用各样本的最终向量训练原型网络,将训练后的原型网络作为样本意图识别模型;6)使用小样本意图识别模型对输入的查询语句进行预测,得到该查询语句的意图。CN115964486ACN115964486A权利要求书1/2页1.一种基于数据增强的小样本意图识别方法,其步骤包括:1)获取用户意图识别数据集,所述用户意图识别数据集包含多条用户查询语句,对每一条用户查询语句标注其所具有的意图,作为一样本,得到小样本意图识别数据集;并构建所述小样本意图识别数据集的元任务;2)将所述小样本意图识别数据集输入自然语言推断生成模型,生成每一样本的扩展样本并对每一所述元任务构建扩展的元任务;其中,样本i的扩展样本的标签与样本i的标签相同;3)根据每一样本所属元任务的样本集,将每一样本映射到特征空间中,得到样本在对应元任务中的特征向量;4)将每一样本在各元任务中的特征向量进行融合作为对应样本的最终向量表示;5)利用各样本的最终向量表示训练原型网络,将训练后的原型网络作为样本意图识别模型;6)使用小样本意图识别模型对输入的查询语句进行预测,得到该查询语句的意图。2.根据权利要求1所述的方法,其特征在于,步骤1)中,采用元学习的范式从小样本意图识别数据集中采样构建多个不同的元任务,每一元任务对应的样本集包含支持集和查询集。3.根据权利要求2所述的方法,其特征在于,构建所述元任务的支持集和查询集的方法为:首先针对当前的元任务a,从小样本意图识别数据集中随机采样N个意图,组成意图集合然后针对意图集合中的每个意图c,随机抽取K个标注为意图c的样本,所得N×K个样本组成元任务a的支持集然后从小样本意图识别数据集剩下的样本中随机抽样q个样本,组成元任务a的查询集其中,xi为支持集中的第i个样本,yi为xi的标签;xj为该q个样本中的第j个样本,yj为xj的标签。4.根据权利要求1或2或3所述的方法,其特征在于,步骤2)中,对每一所述元任务构建包含蕴含、中立和互斥的扩展元任务。5.根据权利要求4所述的方法,其特征在于,利用自然语言推断模型针对元任务所包含的支持集和查询集中的每个样本生成蕴含、中立和互斥三种关系的增强数据,作为对应样本的扩展样本;然后根据扩展样本和原始样本构建M+1个扩展的元任务其中是第m个元任务的支持集,是第m个元任务的查询集,当m=0时,是原始元任务a的支持集是原始元任务a的查询集6.根据权利要求5所述的方法,其特征在于,样本xi融合后的特征向量为是的特征向量,是样本xi在第m个元任务中所对应的扩展样本,当m=0时,是xi自身,是xi自身的特征向量。7.根据权利要求1所述的方法,其特征在于,通过元学习范式训练所述原型网络;在元任务a中,所述原型网络首先计算每个意图类别c的原型其中是第m个元任务中支持集里面意图类别为c的样本集合;给定一个查询样本2CN115964486A权利要求书2/2页计算查询样本属于类别c的条件概率为第m个元任务中查询集的一个样本,为的标签,是的特征向量,代表欧几里得距离,是意图类别c’的原型,即是第m个元任务中支持集里面意图类别为c’的样本集合;原型网络的损失函数为元任务a对应的意图集合,α为损失函数的可调节权重参数,是样本的融合特征向量,是类别y*的融合原型,即是原始元任务a中支持集里面意图类别为y*的样本集合,是类别c的融合原型,即是原始元任务a中支持集里面意图类别为c的样本集合。8.根据权利要求1