预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186013A(43)申请公布日2022.03.15(21)申请号202111539471.6G06K9/62(2022.01)(22)申请日2021.12.15G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人广州华多网络科技有限公司地址511442广东省广州市番禺区南村镇万达广场B1栋24层(72)发明人郑彦(74)专利代理机构广州利能知识产权代理事务所(普通合伙)44673代理人王增鑫(51)Int.Cl.G06F16/31(2019.01)G06F16/33(2019.01)G06F40/216(2020.01)G06F40/295(2020.01)G06F16/2458(2019.01)权利要求书2页说明书18页附图7页(54)发明名称实体识别模型热更新方法及其装置、设备、介质、产品(57)摘要本申请公开一种实体识别模型热更新方法及其装置、设备、介质、产品,所述方法包括:将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库的命名实体输出;将未精准命中的命名实体与标准词库进行模糊匹配,将实现模糊匹配的命名实体添加至标准词库;根据经该实体识别模型历史处理的被识别文本所构成的语料库,计算未实现模糊匹配的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体添加至标准词库中。本申请可以实现实体识别模型的热更新,提升模型完整准确识别命名实体的能力。CN114186013ACN114186013A权利要求书1/2页1.一种实体识别模型热更新方法,其特征在于,包括如下步骤:将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。2.根据权利要求1所述的实体识别模型热更新方法,其特征在于,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果,包括如下步骤:将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。3.根据权利要求1所述的实体识别模型热更新方法,其特征在于,计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本,包括如下步骤:调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。4.根据权利要求1所述的实体识别模型热更新方法,其特征在于,根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中,包括如下步骤:获取所述目标被识别文本及其相应的目标命名实体的许可信息;根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本;根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中。5.根据权利要求1至4中任意一项所述的实体识别模型热更新方法,其特征在于,根据2CN114186013A权利要求书2/2页许可信息将所述目标被识别文本添加至数据集中构成迭代训练所述实体识别模型的数据样本、将所述目标命名实体