预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113762160A(43)申请公布日2021.12.07(21)申请号202111049925.1(22)申请日2021.09.08(71)申请人深圳前海环融联易信息科技服务有限公司地址518000广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)(72)发明人程佳宇陈永红张军涛王国鹏(74)专利代理机构深圳市精英专利事务所44242代理人武志峰(51)Int.Cl.G06K9/00(2006.01)G06K9/20(2006.01)G06F40/295(2020.01)权利要求书2页说明书7页附图3页(54)发明名称一种日期提取方法、装置、计算机设备及存储介质(57)摘要本发明公开了一种日期提取方法、装置、计算机设备及存储介质,该方法包括:获取包含待提取日期的文件图像,对所述文件图像进行预处理;对文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段;通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理;根据修正及后处理结果,获取待提取日期的目标要素,并根据所述目标要素提取日期。本发明结合待提取提起的关联信息对待提取日期所在文本段进行定位,并通过OCR识别和NER技术对文件图像或者文本段进行识别标注,可以提高对于日期的提取精度和提取效率。CN113762160ACN113762160A权利要求书1/2页1.一种日期提取方法,其特征在于,包括:获取包含待提取日期的文件图像,对所述文件图像进行预处理;对经过预处理的文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段;通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理;根据修正及后处理结果,获取待提取日期的目标要素,并根据所述目标要素提取日期。2.根据权利要求1所述的日期提取方法,其特征在于,所述获取包含待提取日期的文件图像,对所述文件图像进行预处理,包括:对所述文件图像进行方向矫正处理;采用Yolov5技术对所述文件图像中的印章或水印进行检测;通过生成式对抗网络将检测到的印章及水印去除。3.根据权利要求1所述的日期提取方法,其特征在于,所述对经过预处理的文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段,包括:通过印刷体OCR技术对所述文件图像进行文字识别;基于文字识别结果对待提取日期的关联信息进行定位,并将定位结果作为所述目标文本段;其中,所述关联信息为待提取日期对应的页面信息或者与待提取日期关联的关键字信息。4.根据权利要求1所述的日期提取方法,其特征在于,所述利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段,包括:利用Bert预训练模型对所述目标文本段提取文本特征;通过Bi‑LSTM网络在所述文本特征中提取实体识别所需的目标特征;采用条件随机场对所述目标特征进行解码处理,得到对应的标注序列,并将所述标注序列作为所述日期文本段输出。5.根据权利要求1所述的日期提取方法,其特征在于,所述通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理,包括:获取所述日期文本段中对应的文本框;采用支持向量机每一文本框进行二分类处理,以判断文本框是否为手写体图像;若判定文本框为手写体图像,则通过手写体OCR技术对所述手写体图像进行识别,并对识别结果进行修正及后处理;若判定文本框不为手写体图像,则继续对所述日期文本段进行修正及后处理。6.根据权利要求1所述的日期提取方法,其特征在于,所述通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理,还包括:对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理;基于待提取日期所处场景对所述日期文本进行审核。7.根据权利要求6所述的日期提取方法,其特征在于,所述对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理,包括:利用N‑Grams模型计算所述日期文本的纠错得分概率值,并基于所述纠错得分概率值2CN113762160A权利要求书2/2页对所述日期文本进行修正。8.一种日期提取装置,其特征在于,包括:预处理单元,用于获取包含待提取日期的文件图像,对所述文件图像进行预处理;第一获取单元,用于对经过预处理的文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;标签标注单元,用于利用NER技术对所述目标文本段进行标签标注