预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115859914A(43)申请公布日2023.03.28(21)申请号202211656524.7G06N3/044(2023.01)(22)申请日2022.12.22(71)申请人朱卫国地址100000北京市东城区东单三条5号(72)发明人朱卫国丘德来(74)专利代理机构北京格汇专利代理事务所(特殊普通合伙)16088专利代理师张伟洋(51)Int.Cl.G06F40/126(2020.01)G06F40/295(2020.01)G06F40/30(2020.01)G16H10/60(2018.01)G06N3/048(2023.01)G06N3/08(2023.01)权利要求书2页说明书9页附图4页(54)发明名称基于病历语义理解的诊断ICD自动编码方法及系统(57)摘要基于病历语义理解的诊断ICD自动编码方法及系统,该方法通过信息抽取程序从医院原始病历抽取病历信息,抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据;对抽取的病历信息进行诊断术语拆分和病历内容清洗,诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分;构建证据抽取模型,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据;构建基于三元文本蕴含的编码模型,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分;对当前诊断原词,取得分最高的候选标签,从标准ICD10库中获取对应编码。本发明提高编码准确率;能够依据完整的病历信息完成自动化编码。CN115859914ACN115859914A权利要求书1/2页1.基于病历语义理解的诊断ICD自动编码方法,其特征在于,包括:通过信息抽取程序从医院原始病历抽取病历信息,抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据;对抽取的病历信息进行诊断术语拆分和病历内容清洗,诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分;构建证据抽取模型,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据;构建基于三元文本蕴含的编码模型,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分;对当前诊断原词,取得分最高的候选标签,从标准ICD库中获取对应编码。2.根据权利要求1所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,通过正则表达式进行病历内容清洗,病历内容清洗包括缩写词替换、全角半角转换和指定字符转换。3.根据权利要求1所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据包括:使用预训练模型,生成具有篇章信息的问题和若干句子的字符表示;将生成的字符表示,输入到双向循环神经网络,获得上下文句子表示;将上下文句子表示使用MLP映射到二维,经过sigmoid函数计算当前句子是否为支撑句的得分;对于指定片段,每个片段经过答案预测网络判断是否存在支撑句;判断片段中句子的得分是否大于预设阈值,大于预设阈值判定为支撑句;获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。4.根据权利要求3所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选标签文本蕴含得分包括:基于分类模型对诊断三元文本证据获取候选编码概率,取概率值最高的前k个作为候选编码标签集。5.根据权利要求4所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,采用单标签推理,将诊断原词和每个候选编码标签的描述文本进行文本蕴含,得到候选编码标签的预测分数。6.根据权利要求5所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,采用双标签推理,通过诊断原词和相似的两个候选编码标签进行文本蕴含,得到候选编码标签集合内部的成对比较分数。7.根据权利要求6所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数,选取得分最高的作为最终答案。8.基于病历语义理解的诊断ICD自动编码系统,其特征在于,包括:病历信息获取模块,用于通过信息抽取程序从医院原始病历抽取病历信息,抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据;病历信息拆分清洗模块,用于对抽取的病历信息进行诊断术语拆分和病历内容清洗,诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分;2CN115859914A权利要求书2/2页支撑信息抽取模块,用于构建证据抽取模型,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据;三元文本蕴含打分模块,用于构建基于三元文本蕴含的编码模型,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分;诊断