预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114424209A(43)申请公布日2022.04.29(21)申请号202080065832.5(74)专利代理机构北京市中咨律师事务所(22)申请日2020.09.1811247代理人刘都于静(30)优先权数据16/575,4322019.09.19US(51)Int.Cl.G06N3/04(2006.01)(85)PCT国际申请进入国家阶段日G06N3/08(2006.01)2022.03.18(86)PCT国际申请的申请数据PCT/EP2020/0761852020.09.18(87)PCT国际申请的公布数据WO2021/053192EN2021.03.25(71)申请人国际商业机器公司地址美国纽约(72)发明人V·谢赫特曼A·索林权利要求书4页说明书14页附图4页(54)发明名称序列到序列神经模型中的结构保留关注机制(57)摘要在训练的序列到序列(seq2seq)人工神经网络(ANN)的训练的关注解码器中:获得编码的输入向量序列;使用训练的关注解码器的训练的主要关注机制生成主要关注向量序列;针对主要关注向量序列中的每个主要关注向量:(a)生成与相应的主要关注向量对应的一组关注向量候选,(b)针对该组关注向量候选中的每个关注向量候选,评估将相应的关注向量候选与所需的关注向量结构的相似度进行量化的结构拟合度量,(c)使用训练的软选择ANN基于该评估并且基于训练的关注解码器的状态变量来生成次要关注向量;以及使用训练的关注解码器基于编码的输入向量序列和次要关注向量来生成输出序列。CN114424209ACN114424209A权利要求书1/4页1.一种方法,包括在训练的序列到序列(seq2seq)人工神经网络(ANN)的训练的关注解码器中,所述方法包括:获得编码的输入向量序列;使用所述训练的关注解码器的训练的主要关注机制生成主要关注向量序列;针对所述主要关注向量序列中的每个主要关注向量:(a)生成与相应的主要关注向量对应的一组关注向量候选,(b)针对所述一组关注向量候选中的每个关注向量候选,评估将所述相应的关注向量候选与所需的关注向量结构的相似度进行量化的结构拟合度量,(c)使用训练的软选择ANN基于所述评估以及基于所述训练的关注解码器的状态变量来生成次要关注向量;以及使用所述训练的关注解码器基于所述编码的输入向量序列和所述次要关注向量来生成输出序列。2.根据权利要求1所述的方法,其中,生成所述输出序列包括:基于所述编码的输入向量序列以及基于所述次要关注向量生成输入上下文向量;以及使用所述训练的关注解码器基于所述输入上下文向量生成所述输出序列。3.根据前述权利要求中任一项所述的方法,其中,生成所述一组关注向量候选包括:获得以下中的至少一个:当前主要关注向量、一组先前主要关注向量和一组先前次要关注向量;以及通过对所述至少一个获得的向量的内容混洗和移动中的至少一个,用附加关注向量来增强所述至少一个获得的向量。4.根据权利要求1或2所述的方法,其中,生成所述一组关注向量候选包括:获得以下中的至少一个:当前主要关注向量、一组先前主要关注向量和一组先前次要关注向量;以及通过计算以符合所述所需的关注向量结构的所述附加关注向量,用附加关注向量来增强所述至少一个获得的向量。5.根据前述权利要求中任一项所述的方法,其中,所述结构拟合度量是基于以下中的至少一个:平滑最大值、峰度、偏斜度、熵、L2范数与L1范数之间的比率。6.根据前述权利要求中任一项所述的方法,其中,生成所述次要关注向量包括:将标量映射应用于所述评估的结构拟合度量,以产生映射的结构拟合度量向量;提供训练的顺序ANN,所述ANN具有:交替的线性层和非线性层,以及终止线性层;将所述训练的顺序ANN应用于所述训练的关注解码器的所述状态变量,并且将所述应用的输出向量添加到所述映射的结构拟合度量向量,以产生中间向量;将所述中间向量提供给softmax层,以产生所述一组关注向量候选的权重;以及通过根据所述一组关注向量候选的权重组合所述一组关注向量候选来形成所述次要关注向量。7.根据权利要求1至5中任一项所述的方法,其中,生成所述次要关注向量包括:将标量映射应用于所述评估的结构拟合度量,以产生映射的结构拟合度量;定义关注向量候选的多个子集及其对应的映射结构拟合度量;针对所述多个子集中的每个子集:2CN114424209A权利要求书2/4页提供训练的顺序ANN,所述ANN具有:交替的线性层和非线性层,以及终止线性层,将所述训练的顺序ANN应用于所述训练的关注解码器的所述状态变量,并且将所述应用的输出向量添加到相应的子集的所述映射的结构拟合度量,以产生中间向量;将所述中间向量提供给softmax层,以产生所述关注向量候