预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114266253A(43)申请公布日2022.04.01(21)申请号202111573126.4(22)申请日2021.12.21(71)申请人武汉百智诚远科技有限公司地址430000湖北省武汉市东湖新技术开发区关南园一路20号当代科技园(华夏创业中心)高层办公楼7号楼403号(自贸区武汉片区)(72)发明人叶文鹏(74)专利代理机构武汉天领众智专利代理事务所(普通合伙)42300代理人蕭光佑(51)Int.Cl.G06F40/295(2020.01)G06F16/35(2019.01)G06K9/62(2022.01)权利要求书1页说明书4页附图1页(54)发明名称一种未标注数据的半监督命名实体识别的方法(57)摘要本发明公开了一种未标注数据的半监督命名实体识别的方法,包括:数据分组、建立识别模型、交叉验证、文本标注、置信度计算和识别训练等步骤,综合多种常用模型的优势,最大程度的降低训练集中噪声数据的干扰,同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α,来调整最后模型的召回率和精度,在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。CN114266253ACN114266253A权利要求书1/1页1.一种未标注数据的半监督命名实体识别的方法,其特征在于,包括以下步骤:步骤一:数据分组,将已标注文本平均随机分成N(N为正整数)份训练数据;步骤二:建立识别模型,采用M(M为正整数)种通用常规实体命名识别算法将N份训练数据进行模型训练,生成M×N种实体命名识别模型;步骤三:交叉验证,通过交叉验证的方式得到M×N种实体命名识别模型的F1score;步骤四:文本标注,通过M×N种实体命名识别模型对未标注文本进行标注得到多个实体;步骤五:置信度计算,将步骤四中得到的实体进行置信度α的计算,其计算公式为:其中F1(k)为第k个模型的F1score,而第k个模型的F1值通过交叉测试的方法,首先在N份训练数据中随机抽取一个非当前模型训练的数据作为测试集进行测试,测试出来的F1score是对精度和召回率的调和平均,具体公式为:其中,精度(precision)为真正例除以(真正例+假正例)的和,召回率(recall)为真正例除以(真正例+假反例)的和,将高于预定置信度α0的实体作为最终识别出来的实体对未标注的实体进行标注;步骤六:识别训练,通过最后已经标注的数据以及M×N种模型中对应F1score最高的算法进行命名实体识别的训练。2.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法,其特征在于,所述步骤二中,M种通用常规实体命名识别算法中包括bert+crf、BiLSTM+crf、BiLSTM+crf、Bert+flat算法。3.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法,其特征在于,所述步骤一中N=3。4.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法,其特征在于,所述步骤五中,预定置信度被设为0.5。2CN114266253A说明书1/4页一种未标注数据的半监督命名实体识别的方法技术领域[0001]本发明涉及自然语言处理领域技术领域,具体为一种未标注数据的半监督命名实体识别的方法及系统。背景技术[0002]本发明属于自然语言处理领域,涉及对大量未标注的文本进行命名实体识别。作为语义知识库、知识图谱的基本组件,命名实体识别对智能系统建设和科技情报服务都起到重要作用。近年来,深度学习方法在特征抽取深度和模型精度上表现优异,已经超过了传统方法,但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型,同时少量标注数据训练的模型识别准确度不高。[0003]为解决上述问题,申请人提出了此方案,其不需要人工对大量未标注文本进行标注,相对于传统监督学习命名实体识别算法,能在仅有少量标注文本的情况下,高精度准确地对未标注文本进行命名实体识别,同时对人工标注带来的噪声能有很好的识别。同时,传统的半监督中文命名实体识别方法仅通过一种模型对识别的结果作为训练集进行置信度打分,单一模型的识别精准度对最终结果的影响很大,而本方案的方法可以综合多种常用模型的优势,最大程度的降低训练集中噪声数据的干扰,同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α,来调整最后模型的召回率和精度,在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。发明内容[0004