预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113887240A(43)申请公布日2022.01.04(21)申请号202111185278.7(22)申请日2021.10.12(71)申请人中南大学地址410083湖南省长沙市岳麓区麓山南路932号(72)发明人高琰刘正涛黎娟唐琎郭璠吴志虎王敏(74)专利代理机构长沙正奇专利事务所有限责任公司43113代理人王娟马强(51)Int.Cl.G06F40/30(2020.01)G06K9/62(2006.01)G06N3/04(2006.01)G06Q50/18(2012.01)权利要求书2页说明书9页附图1页(54)发明名称文本摘要抽取方法、计算机装置、产品及存储介质(57)摘要本发明公开了一种文本摘要抽取方法、计算机装置、产品及存储介质,提出双层记忆网络,使句子向量融合了上下文中的语义关系。变换后的记忆网络有两层,第一层是单向记忆网络,第二层是双向记忆网络。为了使后续句子分类时充分融合前文已有信息,本发明通过单向记忆网络将目标语句向量和前文语句向量相结合。在单向记忆网络中,前文的句子向量被不加区分地融合,为了引入句子在司法裁判文书中的位置信息,本发明通过双向记忆网络将目标语句向量和其上下文语句向量相结合。本发明可以在将裁判文书的上下文语义融入句子本身的语义特征,使抽取式摘要更精准,更符合司法裁判文书的逻辑性,极大地提高了句子分类准确率。CN113887240ACN113887240A权利要求书1/2页1.一种文本摘要抽取方法,其特征在于,包括以下步骤:S1、对待抽取的文书进行分割处理和过滤,得到若干个待处理句子Sn,其中n代表句子个数;S2、基于预训练的语言模型对待处理句子进行向量表示,得到句子中各个字的字符向量i代表句子序号,Ei代表第i个句子的字符向量;S3、对每个句子的字符向量进行全局平均池化操作,得到整个句子的语义向量Xi代表第i个句子的语义向量;S4、将所述语义向量作为双层记忆网络的输入,获得融合上下文的句子记忆向量;S5、基于所述句子记忆向量预测句子的重要程度类别,得到司法裁判文书中的重要句子;S6、对所述重要句子按原始文书中的出现顺序进行组合,得到对应所述待抽取的文书的摘要。2.根据权利要求1所述的文本摘要抽取方法,其特征在于,步骤S3和S4之间还包括:对句子语义向量进行白化处理,得到句子白化向量;则步骤S4替换为:将所述句子白化向量作为双层记忆网络的输入,获得融合上下文的句子记忆向量。3.根据权利要求2所述的文本摘要抽取方法,其特征在于,句子白化向量表达式为:Ui=(Xi‑μ)W;其中,W表示转换矩阵,μ表示所有整个句子的语义向量的均值。4.根据权利要求1~3之一所述的文本摘要抽取方法,其特征在于,步骤S1的具体实现过程包括:基于标点符号特征,对待抽取的文书进行分句处理,得到初始句子集合;基于待抽取的文书结构特征,对初始句子集合中的判决部分长句进行二次分割,得到二次分割句子集合;基于待抽取的文书形式结构的特征,使用正则表达式对二次分割句子集合进行过滤,得到所述待处理句子集合Sn。5.根据权利要求1~3之一所述的文本摘要抽取方法,其特征在于,步骤S2中,所述预训练的语言模型为RoBERTa‑wwm预训练模型。6.根据权利要求2或3所述的文本摘要抽取方法,其特征在于,步骤S4的具体实现过程包括:将句子白化向量中的前i‑1个向量组合成矩阵Ki‑1,通过计算Ui和Ki‑1之间的内积,获得第i个句子与前文中i‑1个句子的匹配度Matchi;使用softmax函数对匹配度Matchi进行归一化,计算获得第i个句子与前文中i‑1个句子之间的概率向量Pi;通过下式获得第i个句子的单向记忆向量Mi:Mi=PiKi‑1;将所有句子的白化向量和单向记忆向量拼接为白化‑单向记忆向量2CN113887240A权利要求书2/2页将中的除第i个向量之外的其它向量组合成矩阵K'n‑1,计算U′i和K'n‑1之间的内积,并对该内积使用softmax函数进行归一化,获得第i个句子的白化‑单向记忆向量与其上下文中其他n‑1个句子的白化‑单向记忆向量之间的概率向量Pi':通过下式获得第i个句子的双向记忆向量M’i:Mi'=Pi'K'i‑1;拼接所有句子的白化向量和双向记忆向量得到第i个句子的记忆向量Oi。7.根据权利要求1~3之一所述的文本摘要抽取方法,其特征在于,步骤S5中,第i个句子的重要程度类别Yi的计算公式为:Yi=softmax(Dense(Oi));其中,Dense()为全连接神经网络;Oi为第i个句子的记忆向量。8.一种计算机装置,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求1~7之一所述方法