预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111223539A(43)申请公布日2020.06.02(21)申请号201911388053.4(22)申请日2019.12.30(71)申请人同济大学地址200092上海市杨浦区四平路1239号(72)发明人方钰张贝贝陆明名黄欣翟鹏珺(74)专利代理机构上海科律专利代理事务所(特殊普通合伙)31290代理人叶凤(51)Int.Cl.G16H10/60(2018.01)G06F40/211(2020.01)G06F40/289(2020.01)权利要求书1页说明书6页附图1页(54)发明名称中文电子病历的关系抽取方法(57)摘要一种基于中文电子病历的关系抽取方法,其特征在于,使用NLPIR分词器对中文电子病历文本进行分词,提取词和词性特征,即基本特征;对中文电子病历文本进行分句,抽取实体对,保留其起始和终止位置信息、实体类别以及修饰信息;提取电子病历的章节名字为章节信息特征(病历特征),为扩展特征;构建关系指示词词典,提取每对实体对的核心词特征,为扩展特征;利用LTP工具对分句后的句子进行依存分析,得到句子各成分之间依存关系;将二元实体的句法依存关系、实体对的依存关系以及二元实体与核心谓词的距离作为依存句法特征;将上述基本特征、扩展特征和依存特征组成的特征向量输入已训练好的支持向量机分类器,抽取中文电子病历的实体关系。CN111223539ACN111223539A权利要求书1/1页1.一种基于中文电子病历的关系抽取方法,其特征在于,使用NLPIR分词器对中文电子病历文本进行分词,提取词和词性特征,即基本特征;对中文电子病历文本进行分句,抽取实体对,保留其起始和终止位置信息、实体类别以及修饰信息;提取电子病历的章节名字为章节信息特征(病历特征),为扩展特征;构建关系指示词词典,提取每对实体对的核心词特征,为扩展特征;利用LTP工具对分句后的句子进行依存分析,得到句子各成分之间依存关系;将二元实体的句法依存关系、实体对的依存关系以及二元实体与核心谓词的距离作为依存句法特征;将上述基本特征、扩展特征和依存特征组成的特征向量输入已训练好的支持向量机分类器,抽取中文电子病历的实体关系。2CN111223539A说明书1/6页中文电子病历的关系抽取方法技术领域[0001]本发明涉及机器学习应用于医疗领域。背景技术[0002]目前英文电子病历的关系抽取主要是基于机器学习,其特征选择和辅助实现主要依靠于英文医疗词典和数据集以及句法分析等。而中文电子病历的实体关系抽取还比较匮乏,一方面主要是基于两个具体实体之间的关系;另一方面没有很好得考虑到中文电子病历文本以及句子的特有特征。[0003]电子病历的关系抽取研究同样由早期的基于规则和词典的方法转化为目前以基于机器学习方法为主流的分类方法,这里的实体关系指的是在一个电子病历文本的句子中出现的实体对之间的关系。针对英文电子病历的关系抽取,Uzuner等人利用SVM模型对疾病、症状、检查和治疗之间的关系进行了识别,他们将语义词汇特征、实体对在句子中出现的次序以及语法特征加入分类器,最后得到了0.89的F值。针对I2B22010评测数据,Rink等人利用GENIA15对病历文本进行了预处理,并在词汇特征和上下文特征的基础上选择了上下文相似度作为新特征,其中特征抽取利用到了Wikipedia、WordNet和Generalinquirer等,最后利用SVM模型达到了0.74的F值。DemnerFushman等人针对电子病历某些实体的上下文特征不丰富这个问题,使用UMLS中概念间关系作为替补特征,最后取得了0.67的F值。目前中文电子病历上的关系抽取研究主要围绕开放域展开,针对中文电子病历的关系抽取方法还在初步研究阶段。车万翔等人从利用Winnow和SVM算法对2004年的ACE测评中的数据进行了实体关系抽取实验,强调了特征选择的重要性。Fang等人进行了中医药的中药与疗效之间的关系抽取实验,用的是基于规则的方法。Zhou等人使用了基于半监督的bootstrapping框架,在此基础上实现了关系抽取方法并以此从医学文章中抽取关系并将其用于部分知识库的构建。吴嘉伟等人提出了一种基于深度学习的电子病历抽取方法,使用深度稀疏自动编码来对实体上下文的向量表示进行再表示。发明内容[0004]本发明的目的在于首次提出了一种针对中文电子病历的关系抽取方法,实现了中文电子病历中实体关系的抽取,抽取的关系类型有治疗和疾病的关系、治疗和症状的关系、检查和疾病的关系、检查和症状的关系以及疾病和症状的关系。并且应用机器学习方法将实体关系的抽取转化为实体对的分类,主要应用了支持向量机模型用作训练和测试。在特征上,本发明首先基于一般性的文本特点提出了基