预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111753495A(43)申请公布日2020.10.09(21)申请号201911083109.5(22)申请日2019.11.07(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室(72)发明人牛鹏飞(74)专利代理机构北京律智知识产权代理有限公司11438代理人孙宝海袁礼君(51)Int.Cl.G06F40/117(2020.01)G06F40/284(2020.01)G06Q10/04(2012.01)权利要求书2页说明书10页附图5页(54)发明名称意图语句预测模型构建方法及装置、设备及存储介质(57)摘要本公开提供了一种意图语句预测模型构建方法及装置、设备及存储介质。该方法包括:获取样本语料和对应的标签,所述标签包括:意图标签和非意图标签;对样本语料和对应的标签分别进行分词处理;分别获取样本语料和对应的标签包含的各分词结果的编号,以确定样本语料和对应的标签的编号;对样本语料的编号进行分组处理;分别将各分组中样本语料包含的各分词结果的编号转化为词向量;以及分别以各分组中的词向量的至少一部分作为训练集,输入到神经网络模型中进行训练,以获得所述意图语句预测模型。该方法构建的模型能够根据用户的留言生成意图语句。CN111753495ACN111753495A权利要求书1/2页1.一种意图语句预测模型构建方法,其特征在于,包括:获取样本语料和对应的标签,所述标签包括:意图标签和非意图标签;对所述样本语料和对应的标签分别进行分词处理;分别获取所述样本语料和对应的标签包含的各分词结果的编号,以确定所述样本语料和对应的标签的编号;对所述样本语料的编号进行分组处理,其中,每个分组包含预设数量个所述样本语料的编号,每个分组分别具有固定长度;分别将各分组中所述样本语料包含的各分词结果的编号转化为词向量;以及分别以各分组中的所述词向量的至少一部分作为训练集,输入到神经网络模型中进行训练,以获得所述意图语句预测模型。2.根据权利要求1所述的方法,其特征在于,分别获取所述样本语料和对应的标签包含的各分词结果的编号,以确定所述样本语料和对应的标签的编号包括:将所述样本语料包含的各分词结果的编号组成所述样本语料的编号;以及将所述对应的标签包含的各分词结果的编号组成所述对应标签的编号。3.根据权利要求2所述的方法,其特征在于,在分别获取所述样本语料和对应的标签包含的各分词结果的编号之前,所述方法还包括:将所有分词结果中词频小于预设数值的分词结果替换为特定符号;基于正则表达式,将所述分词结果中的特殊字符替换为所述特定符号;以及根据词频大小对各分词结果进行编号。4.根据权利要求1所述的方法,其特征在于,对所述样本语料的编号进行分组处理包括:当所述分组中的所述样本语料的编号的长度小于所述分组的固定长度时,填充所述样本语料的编号,以使所述样本语料的编号的长度等于所述分组的固定长度。5.根据权利要求1所述的方法,其特征在于,分别以各分组中的所述词向量的至少一部分作为训练集,输入到神经网络模型中进行训练,以获得所述意图语句预测模型包括:以Seq2Seq结构构建所述神经网络模型,其中编码器长度分别为各分组的固定长度,解码器的长度为所有标签中长度最长的标签个数,并使用AttentionWrapper封装。6.根据权利要求5所述的方法,其特征在于,还包括:优化所述意图语句预测模型,包括:在所述神经网络模型中,以预设概率过滤隐藏节点;在所述神经网络模型的损失函数中添加正则项;在所述神经网络模型的梯度下降优化器中采用自适应矩估计动态调整学习率;以及设置所述梯度下降优化器的梯度的最大范数。7.根据权利要求6所述的方法,其特征在于,还包括:分别以各分组中的所述词向量的另一部分作为测试数据集,评估所述意图语句预测模型。8.一种意图语句预测方法,其特征在于,包括:获取待预测语句;以及基于意图语句预测模型对所述待预测语句进行预测,得到意图语句预测结果;其中,所述意图语句预测模型根据权利要求1-5任一项所述的方法得到。2CN111753495A权利要求书2/2页9.一种意图语句预测模型构建装置,其特征在于,包括:样本获取模块,用于获取样本语料和对应的标签,所述标签包括:意图标签和非意图标签;分词处理模块,用于对所述样本语料和对应的标签分别进行分词处理;编号获取模块,用于分别获取所述样本语料和对应的标签包含的各分词结果的编号,以确定所述样本语料和对应的标签的编号;分组处理模块,用于对所述样本语料的编号进行分组处理,其中,每个分组包含预设数量个所述样本语料的编号,每个分组分别具有固定长度;编号转化模块,用于分别将各分组中所述样本语料包