预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115034194A(43)申请公布日2022.09.09(21)申请号202210789204.2G06V30/42(2022.01)(22)申请日2022.07.06(71)申请人深圳证券信息有限公司地址518000广东省深圳市福田区红荔西路203栋606室(72)发明人朱菁张大千杨雯雯毛瑞彬李霁赖文琛张俊杨建明(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师王欢(51)Int.Cl.G06F40/186(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)G06V10/82(2022.01)权利要求书3页说明书10页附图3页(54)发明名称一种摘要生成方法及相关装置(57)摘要本申请实施例公开了一种摘要生成方法,包括:获取目标文档;根据目标文档得到文本向量、图像向量、表格向量和布局向量;将文本向量、图像向量和表格向量进行拼接得到第一向量;将第一向量和布局向量相加得到第二向量;将第二向量输入至神经网络进行微调得到目标向量,将目标向量输入至分类函数得到目标信息,最后将目标信息填充至目标模板得到第一摘要。CN115034194ACN115034194A权利要求书1/3页1.一种摘要生成方法,其特征在于,包括:获取目标文档;根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,所述文本向量为所述目标文档中文本部分的文本片段对应的向量,所述文本坐标向量为所述目标文档中文本部分对应的坐标的向量,所述图像向量为所述目标文档中图像部分对应的向量,所述图像坐标向量为所述目标文档中图像部分对应的坐标的向量,所述表格向量为所述目标文档中表格对应的向量,所述表格内文本坐标向量为所述目标文档中表格内文本对应的坐标的向量;根据所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量得到布局向量;将所述文本向量、所述图像向量和所述表格向量进行拼接得到第一向量;将所述第一向量和所述布局向量对应相加得到第二向量;将所述第二向量输入至多模态神经网络进行微调得到目标向量;将所述目标向量输入至分类函数得到目标信息;将所述目标信息填充至目标模板得到第一摘要,所述目标模板为预先设置好的与所述目标文档对应的模板。2.根据权利要求1所述的摘要生成方法,其特征在于,将所述目标信息填充至目标模板得到第一摘要之后,所述方法还包括:根据所述目标文档和提示得到目标片段,所述提示为用户根据所述目标文档定义的内容;将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要。3.根据权利要求1所述的摘要生成方法,其特征在于,根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,包括:根据所述目标文档得到文本信息和非文本信息,所述文本信息包括文本内容信息和文本坐标信息,所述非文本信息包括图像信息和表格信息;将所述文本内容信息输入至语言模型得到所述文本向量;将所述非文本信息输入至目标检测模型得到图像特征图、图像坐标信息、表格结构和表格内文本坐标信息;将所述文本坐标信息、所述图像坐标信息和所述表格内文本坐标信息通过坐标位置编码得到所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量;通过所述图像特征图得到所述图像向量;将所述表格结构输入至表格结构识别模型得到所述表格向量。4.根据权利要求2所述的摘要生成方法,其特征在于,根据所述目标文档和提示得到目标片段,包括:根据所述目标文档和所述提示预测所述目标文档的每一段落中所述目标片段的起始位置概率和结束位置概率;判断所述起始位置概率的最大值与所述结束位置概率的最大值之和是否小于预设阈值;若否,则将所述起始位置概率的最大值对应的位置与所述结束位置概率的最大值对应2CN115034194A权利要求书2/3页的位置之间的文本确定为所述目标片段。5.根据权利要求2所述的摘要生成方法,其特征在于,将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要,包括:将即将生成的所述第二摘要的第i个位置确定为目标位置,i为1,2,3,...,k‑1,其中k为所述第二摘要的位置个数,所述目标位置为即将生成内容的文本片段的位置;将所述第一摘要和所述目标片段输入至所述生成式神经网络得到目标位置的第一概率,所述第一概率为所述第一摘要和所述目标片段中在所述目标位置出现的概率最大的文本的概率;获取所述目标位置的第二概率,所述第二概率为词汇表中在所述目标位置出现的概率最大的文本的概率,所述词汇表为预先训练好的词库;将所述第一概率和所述第二概率两者中较大的概率对应的文本确定为与所述目标位置对应的文本片段的内容;将第i+1个位置确定为所述目标位置,返回执行所述将所述第