预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110298436A(43)申请公布日2019.10.01(21)申请号201910573445.1(22)申请日2019.06.28(71)申请人乐山金蜜工业卫士服务股份有限公司地址614399四川省乐山市峨边县沙坪镇新村路143号(72)发明人琚生根孙萌欣刘实赖星宇王霞(74)专利代理机构成都三诚知识产权代理事务所(普通合伙)51251代理人成实饶振浪(51)Int.Cl.G06N3/04(2006.01)G06N3/08(2006.01)G06F17/28(2006.01)权利要求书4页说明书12页(54)发明名称基于指针生成网络的数据到文本的生成模型(57)摘要本发明公开了基于指针生成网络的数据到文本的生成模型,包括(1)建立输入层;(2)建立属性注意力机制;(3)建立指针生成网络;(4)建立覆盖机制;(5)建立注意力分布门控;(6)进行训练等步骤。本发明提供基于指针生成网络的数据到文本的生成模型,能够提供基于指针生成网络的数据到文本的生成模型,利用指针生成网络中的拷贝机制解决数据到文本生成中的严重的未登录词和稀有词问题,且引入槽-值对数据的结构语义知识从而更好地对齐属性和值,在此基础上,不仅引入覆盖机制使模型更多地关注未表达的属性值在一定程度上保证表达的完整性,还引入注意力分布门控调整注意力分布的尖锐度,更好地对齐槽-值对数据与生成的文本。CN110298436ACN110298436A权利要求书1/4页1.基于指针生成网络的数据到文本的生成模型,其特征在于:包括以下建立步骤:(1)建立输入层;(2)建立属性注意力机制;(3)建立指针生成网络;(4)建立覆盖机制;(5)建立注意力分布门控;(6)进行训练;(7)完成预测。2.根据权利要求1所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(1)的具体方式为:令模型输入序列为x,目标输出文本为y={y1,y2,…,yT},其中yt是在t时刻生成的单词,设T为目标文本的长度,即T为文本最后一个词的时刻,t为文本中某一个时刻;基础模型将属性-值对序列看作一个顺序序列作为输入,输入序列词嵌入为x=[s1,v1,1,…,v1,k,…,si,vi,1,…,vi,k′,…],其中,si表示第i个属性名,vi表示si对应的属性值序列;本文模型将值词嵌入序列和属性词嵌入序列进行拼接得到序列x=[(s1,v1),…,(sJ,vJ)],其中[v1,…,vJ]是值词嵌入序列,[s1,…,sJ]是值序列对应的属性名词嵌入序列,设J为序列长度,j则为(1,……,J)中任意一个序列;利用LSTM对x进行编码来初始化解码器隐藏状态3.根据权利要求2所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(2)的具体方式为:在解码时间步t计算每个属性-值对和解码器隐藏状态的注意力分数et,j:其中Wh、Ws、Wv为神经网络的权重,be为神经网络的偏差参数;并进行归一化得到注意力权重,表示每个属性-值对与生成的目标词的相关程度,权重越高表示越相关:其中分母为exp(et,k)的累加,下标k从1到J;然后,分别为属性序列和值序列构建对应的上下文向量,得到利用属性名序列和属性值序列的上下文向量和解码器隐藏状态计算注意力隐藏状态,以此加入属性信息的控制:2CN110298436A权利要求书2/4页其中Wz为神经网络的权重,bz为神经网络的偏差参数。4.根据权利要求3所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(3)的具体方式为:在解码过程中,输入中的单词Vx动态地扩展固定词汇表V,包括起始符号<sos>、终止符号<eos>和特殊的空字符<unk>,即Vext=V∪Vx,得到扩展词汇表Vext;模型在扩展词汇表上的概率分布由固定词汇表上的概率分布Pg(yt)和输入序列上的注意力分布Pc(yt)插值得到;其中,pgen,t∈(0,1)是生成概率,其利用上下文向量解码器隐藏状态以及上一时间步解码器输出yt-1计算;其中Ws,s、Ws,v、Ws,h、Wy为神经网络的权重,bs为神经网络的偏差参数;固定词汇表上的概率分布Pg(yt)计算为:其中Wd2v为神经网络的权重,bd2v为神经网络的偏差参数;输入序列上的注意力分布Pc(yt)是所有出现的目标词的注意力权重之和:可以看出,如果yt是一个未登录词,则Pg(yt)为0;同样如果yt没有出现在输入样本中,则Pc(yt)为0。5.根据权利要求4所述的基于指针生成网络的数据到文本的生成模型,其特征在于:步骤(4)的具体方式为:在每个解码时间步t构建一个覆盖向量向量的每个维度表示每个输入词在未来要表达的程度,覆盖向量每个维度初始化为1;覆盖向量的更新方式为,在覆盖