预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115114437A(43)申请公布日2022.09.27(21)申请号202210736345.8(22)申请日2022.06.27(71)申请人山东师范大学地址250014山东省济南市历下区文化东路88号(72)发明人郑向伟王智超张明哲穆怡君张劲松(74)专利代理机构济南圣达知识产权代理有限公司37221专利代理师王雪(51)Int.Cl.G06F16/35(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)G16H10/60(2018.01)权利要求书3页说明书9页附图1页(54)发明名称基于BERT和双分支网络的胃镜文本分类系统(57)摘要本发明属于自然语言处理领域,提供一种基于BERT和双分支网络的胃镜文本分类系统,获取待分类的胃镜文本数据;从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。采用先对文本进行切分再进行分类的方法实现对胃镜文本分类,保留胃镜文本中胃的部位信息。CN115114437ACN115114437A权利要求书1/3页1.基于BERT和双分支网络的胃镜文本分类系统,其特征在于,包括:文本数据采集模块,被配置为获取待分类的胃镜文本数据;文本数据切分模块,被配置为从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本;文本单元切分模块,被配置为对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合;文本单元拼接模块,被配置为在所述文本单元集合内的每个文本单元前插入[CLS]标记,每个文本单元后插入[SEP]标记,并将它们重新组合成一段连续的文本;文本特征提取模块,被配置为使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量,得到文本单元的特征向量集合;文本单元分类模块,被配置为基于文本单元的特征向量集合,利用预先训练好的MLP双分支分类网络中进行文本分类。2.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述获取待分类的胃镜文本数据,具体为:逐条获取胃镜文本数据,以列表形式存储为原始数据集;对原始数据集中的原始待处理的每条数据执行去除特殊字符、首尾空格操作,并将英文标点符号转换为中文标点符号,得到待分类的胃镜文本数据。3.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本,包括:基于待分类的胃镜文本数据,查找胃镜文本的切分点;基于胃镜文本的切分点,将待分类的胃镜文本数据进行切分;得到镜下所见文本和病理诊断文本。4.如权利要求3所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述查找胃镜文本的切分点,具体为:对待分类的胃镜文本数据T进行切分,T由字符序列Ti组成,其中i=1,2,…,n,n为T的中所包含的字符个数;置状态符S=0,由T1开始迭代检索;若Ti为换行符,则置状态符S=1,否则置状态符S=0并跳出本轮迭代;查看Ti+1是否为换行符,若Ti+1为换行符,则置状态符S=2,否则置状态符S=0并跳出本轮迭代;查看Ti+2是否为换行符,若Ti+2为换行符,则标记Ti的位置L,否则置状态符S=0,本轮迭代完成;所获取的三个换行符为胃镜文本的切分点。5.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统,其特征在于,所述对镜下所见文本和病理诊断文本分别进行切分,获得由若干文本单元组成的集合,即文本单元集合,包括:以句号为切分点分别将镜下所见文本与病理诊断文本进行切分,获得语句集S,S由Sk构成其中k=1,2,…,m,m为镜下所见文本和病理诊断文本中的句子数量之和;对Sk进行检索,若句子中有胃角、胃底的胃内部位关键字,将Sk的标记Fk置为1,否则置2CN115114437A权利要求书2/3页为0;遍历所有Fk为0的句子S,将Sk拼接在St的末尾组成新的文本,其中t为[1,k‑1]范围中且符合Ft=1最大的值;此时每一条Fk=1的文本Sk均为一个文本单元,若此文本单元来自镜下所见文本,则这个文本单元为镜下所见文本单元,否则为病理诊断文本单元;将得到所有的镜下所见文本单元和病理诊断文本单元构成文本单元集合。6.如权利要求1所述的基于BERT和双分支网络