预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115965027A(43)申请公布日2023.04.14(21)申请号202211724703.X(22)申请日2022.12.30(71)申请人南京邮电大学地址210023江苏省南京市栖霞区文苑路9号(72)发明人龚乐君吕畅唐翔宇(74)专利代理机构南京正联知识产权代理有限公司32243专利代理师王素琴(51)Int.Cl.G06F40/30(2020.01)G06F18/22(2023.01)G06N3/08(2023.01)G06N3/0464(2023.01)权利要求书3页说明书12页附图4页(54)发明名称一种基于语义匹配的文本摘要自动抽取方法(57)摘要一种基于语义匹配的文本摘要自动抽取方法,建立文本摘要抽取模型,抽取文本中的关键语句,利用贪心选择策略,构建候选摘要集,以候选摘要作为抽取单元;其次,对候选摘要集、原始文档和参考摘要文本序列,通过神经主题模型获取文本的主题表征,通过BERT预训练模型获取文本的语言表征;最后,使用语义匹配网络计算候选摘要与原始文档的语义相似度,在输出层中抽取出匹配度最佳的候选摘要。本方法能够利用文本之间的语义关系抽取原始文档中的关键内容,为解决抽取式文本摘要提供了一种可行的途径。CN115965027ACN115965027A权利要求书1/3页1.一种基于语义匹配的文本摘要自动抽取方法,其特征在于:所述方法包括如下步骤:步骤1,对于原始文档进行关键句的抽取,抽取的关键句构成候选摘要集;步骤2,对于候选摘要集、原始文档及其参考摘要的文本,利用神经主题模型获取主题表征;步骤3,利用编码器获取文本的语言表征;编码器包括词嵌入层和多个计算单元,每个计算单元包括多头注意力层、归一化层和前馈神经网络层;将上一个计算单元的输出作为下一个计算单元的输入,词嵌入层的输出序列是第一个计算单元的输入,最后一个计算单元的输出序列作为编码器的输出结果;步骤4,基于获得的主题表征和语言表征,利用语义匹配网络进行文本语义相似度计算,同时设计损失函数,将与原始文档语义匹配程度最高、并与其他候选摘要的差异度最大的候选摘要进行输出,得到最佳候选摘要,其与原始文档的相似度最大。2.根据权利要求1所述的一种基于语义匹配的文本摘要自动抽取方法,其特征在于:步骤1中,通过TextRank算法先抽取出原始文档中的k个关键句,得到关键句集合ix,然后利用关键句集合ix构建候选摘要集C。3.根据权利要求2所述的一种基于语义匹配的文本摘要自动抽取方法,其特征在于:步骤1中,获取候选摘要集的具体步骤为:首先,假设抽取摘要中的句子数量为p,p<k,从关键句集合ix中抽取[1,p]条句子,并按照句子在原始文档中的顺序,列举出所有可能的句子排列,将其组成候选摘要集,候选摘要集中的候选摘要数量为q。4.根据权利要求1所述的一种基于语义匹配的文本摘要自动抽取方法,其特征在于:步骤2中,在神经主题模型中,首先输入的一段文本字符串即文本序列x的词袋表示xbow,通过线性编码器qψ(θ|xbow)得到μ和logσ,ψ为编码器参数,如公式(2)和(3)所示。μ=fμ(xbow)(2)logσ=fσ(xbow)(3)其中,μ和σ是主题表征的超参数,fμ和fσ是带有激活函数的前馈网络层;使用高斯Softmax函数生成主题‑词语分布,其过程如公式(4)和(5)所示:z~N(μ,σ2)(4)θ=softmax(z)(5)其中,z是主题表征的隐变量,θ∈RK是输入序列的主题表征向量,K表示主题的个数;然后将主题表征向量通过解码层重构为xbow',计算过程如公式(6)所示:pω(xbow'|θ)=softmax(Wpθ+bp)(6)V*K其中,Wp∈R为权重矩阵,V为词表大小,bp为偏执项,ω为解码器参数,pω(xbow'|θ)表示文本序列xbow'的词表概率分布;最后构造xbow和xbow'之间的重构误差LNTM,作为神经主题模型的损失函数,计算过程如公式(7)所示:其中,表示xbow和xbow'的似然函数,KL(·)表示主题表征间的KL散度。5.根据权利要求1所述的一种基于语义匹配的文本摘要自动抽取方法,其特征在于:步骤3中,在多头注意力机制层中,通过使用不同的自注意力,形成多个子空间,从不同维度捕2CN115965027A权利要求书2/3页获句子信息;通过将各组自注意力矩阵拼接,并与一个随机的初始化矩阵相乘,最后得到输入文本的多头注意力序列Z。6.根据权利要求1所述的一种基于语义匹配的文本摘要自动抽取方法,其特征在于:步骤3中,在归一化层中,通过Add操作将文本的嵌入表示序列X和多头注意力机制层的输出序列Z相加,通过Norm操作进行归一化处理将输入序列变为一个均值为0,方差为1的序列。7.根据权利