预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109918510A(43)申请公布日2019.06.21(21)申请号201910235391.8(22)申请日2019.03.26(71)申请人中国科学技术大学地址230026安徽省合肥市包河区金寨路96号(72)发明人陈恩红王亚楠刘淇秦川徐童王怡君熊辉(74)专利代理机构北京凯特来知识产权代理有限公司11260代理人郑立明郑哲(51)Int.Cl.G06F16/35(2019.01)G06F17/22(2006.01)权利要求书4页说明书6页附图1页(54)发明名称跨领域关键词提取方法(57)摘要本发明公开了一种跨领域关键词提取方法,包括:构建基于主题的对抗神经网络,其使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。该方法可实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。CN109918510ACN109918510A权利要求书1/4页1.一种跨领域关键词提取方法,其特征在于,包括:构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。2.根据权利要求1所述的一种跨领域关键词提取方法,其特征在于,所述基于主题的编码器,包括双向长短期记忆网络和主题注意力机制模块;其中:对于源领域文本对应的词表x=(x1,x2,...,xn),其中n是文本的长度;首先使用WordEmbedding的方法把文本映射成向量形式E=(e1,e2,...,en),再使用双向长短期记忆网络对向量序列E进行编码,向量ei在两个方向的隐向量为:最终向量ei的隐向量表示为:LSTM细胞单元为:ii=σ(Wxiei+Whihi-1+bi)fi=σ(Wxfei+Whfhi-1+bf)oi=σ(Wxoei+Whohi-1+bo)hi=oi⊙φ(ci)其中,i,f,o,c分别是输入门,输出门,遗忘门和记忆门;σ是sigmoid激活函数是相应门的权重、偏置,Wx*为相应门的权重,Wh*为对应上一时刻的权重,b*为偏置,i∈[1,n];对于目标领域文本对应的词表x′做相同的处理,最终向量ei′的隐向量记为hi′;之后,使用主题注意力机制模块来考虑文本中每个词与主题的联系:首先,使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z;然后,衡量隐向量hi与主题向量z相关性的门ti:ti=tanh(Wzhi+Uzz+bz)上式中,Wz、Uz、bz是参数矩阵;基于主题的特征向量表示如下:从而得到源领域文本对应的词表x所对应的主题特征向量序列对于目标领域做相同的处理,得到目标领域文本对应的词表x′所对应的主题特征向量序列2CN109918510A权利要求书2/4页3.根据权利要求2所述的一种跨领域关键词提取方法,其特征在于,引入对抗学习来确保基于主题的编码器学习到的特征与领域无关,其通过带有对抗损失函数的领域判别器来实现;所述带有对抗损失函数的领域判别器使用卷积神经网络来实现;卷积神经网络输入基于主题的编码器输出的主题特征向量序列其中dh是LSTM细胞单元的大小;对该主题特征向量序列使用带有一个过滤器窗口大小为c个单词的卷积操作得到的新的特征向量如下:zq=f(Wq*h+bq)其中,*是卷积操作,f是非线性的激活函数;最后,使用时间上的最大值池化操作来取它的最大值:以上过程是使用一个过滤器,通过使用多个过滤器Wq以及多个窗口大小c来得到向量序列的多个特征;对主题特征向量序列hz′做相同的处理,得到多个特征;在得到的这些特征上,使用softmax层来预测领域标签d∈{0,1},其中,0,1分别表示源领域和目标领域;领域判别器的目标是区分出源领域和目标领域样本的领域特征以及最小化下面的目标函数:其中,是源领域的有标签样本数目,是源领域的无标签样本数目,Nt是目标领域的无标签样本数目,是预测的第j个