预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113901817A(43)申请公布日2022.01.07(21)申请号202111006981.7(22)申请日2021.08.30(71)申请人上海浦东发展银行股份有限公司地址200001上海市中山东一路12号(72)发明人赵丹田益熊烈日(74)专利代理机构广州华进联合专利商标代理有限公司44224代理人黄晓庆(51)Int.Cl.G06F40/295(2020.01)G06F40/30(2020.01)G06K9/62(2022.01)权利要求书2页说明书10页附图3页(54)发明名称文档分类方法、装置、计算机设备和存储介质(57)摘要本申请涉及文档分类方法、装置、计算机设备和存储介质。所述方法包括:获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。本发明通过已训练的合同分类模型,在语义层面提取待处理文档的多个属性和多个实体关系,并确定目标类别,提高了文档分类的准确性。CN113901817ACN113901817A权利要求书1/2页1.一种文档分类方法,其特征在于,所述方法包括:获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。2.根据权利要求1所述的方法,其特征在于,所述获取待处理文档,包括:监控文档外发接口和/或文档存储接口,获取发送至所述文档外发接口和/或所述文档存储接口的待处理文档。3.根据权利要求1所述的方法,其特征在于,所述对所述待处理文档进行预处理,得到待处理文本,包括:提取所述待处理文档中的所有文字;剔除所述所有文字中的异常文字,得到待处理文本。4.根据权利要求1所述的方法,其特征在于,所述提取模块包括命名实体提取模块和第一双向长短期记忆模块;所述将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,包括:将所述待处理文本输入所述命名实体提取模块,得到所述待处理文本的多个命名实体;将所述多个命名实体输入所述第一双向长短期记忆模块,得到所述待处理文档的多个属性和多个实体关系。5.根据权利要求4所述的方法,其特征在于,所述命名实体提取模块包括:BERT模块、第二双向长短期记忆模块和条件随机场模块,所述将所述待处理文本输入已训练的合同分类模型中的提取模块,得到多个命名实体,包括:将待处理文本输入所述BERT模块,得到所述待处理文本的文本特征;将所述文本特征输入所述第二双向长短期记忆模块,得到所述待处理文本中双向文本特征;将所述双向文本特征输入所述条件随机场模块,得到多个命名实体。6.根据权利要求1所述的方法,其特征在于,所述基于所述多个属性、多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,包括:对所述多个属性和所述多个实体关系进行编码,得到多个属性编码和多个实体关系编码;将所述多个属性编码和所述多个实体关系编码输入分类模块,得到所述待处理文档的目标类别。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述已训练的合同分类模型是基于合同训练集中的训练合同文档确定训练文本,将所述训练文本输入待训练的合同分类模型,得到所述训练合同文档的训练类别和置信度,基于所述训练合同文档的训练类别和置信度训练所述合同分类模型,直到训练完成得到的。8.一种文档分类装置,其特征在于,所述装置包括:2CN113901817A权利要求书2/2页待处理文本获取模块,用于获取待处理文档,对所述待处理文档进行预处理,得到待处理文本;属性和实体关系提取模块,用于将所述待处理文本输入已训练的合同分类模型中的提取模块,得到所述待处理文档的多个属性和多个实体关系,其中,所述属性是所述待处理文档中命名实体的属性,所述实体关系用于反映两个命名实体之间的关系;分类模块,用于基于所述多个属性、所述多个实体关系和已训练的合同分类模型中的分类模块,确定所述待处理文档的目标类别,其中,所述目标类别合同类别,或者非合同类别。9.一种计算