预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114861661A(43)申请公布日2022.08.05(21)申请号202110077227.6(22)申请日2021.01.20(71)申请人国家计算机网络与信息安全管理中心地址100029北京市朝阳区裕民路甲3号(72)发明人贺敏王秀文董琳郭富民杨菁林(74)专利代理机构北京华夏泰和知识产权代理有限公司11662专利代理师刘蔓莉吴雪(51)Int.Cl.G06F40/295(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)G06Q40/00(2012.01)权利要求书2页说明书10页附图4页(54)发明名称实体识别方法、装置、设备及存储介质(57)摘要本申请涉及一种实体识别方法、装置、设备及存储介质。该方法包括获取非法集资线索数据;确定与非法集资线索数据对应的字向量序列;利用预先训练得到的BiLSTM‑CRF模型对字向量序列进行推理,得到与非法集资线索数据对应的标签序列;从标签序列中提取属于实体标签的目标标签,并将目标标签对应的数据作为非法集资线索数据中的非法集资线索实体。可见,采用本申请的技术方案实现了对非法集资线索实体的自动识别,不仅识别效率高,且可以做到实时识别。CN114861661ACN114861661A权利要求书1/2页1.一种实体识别方法,其特征在于,包括:获取非法集资线索数据;确定与所述非法集资线索数据对应的字向量序列;利用预先训练得到的BiLSTM‑CRF模型对所述字向量序列进行推理,得到与所述非法集资线索数据对应的标签序列;从所述标签序列中提取属于实体标签的目标标签,并将所述目标标签对应的数据作为所述非法集资线索数据中的非法集资线索实体。2.根据权利要求1所述的方法,其特征在于,确定与所述非法集资线索数据对应的字向量序列,包括:对所述非法集资线索数据进行分词,得到至少一个文本字;分别对于所述至少一个文本字中的每个文本字,得到所述文本字的字向量;根据所述每个文本字各自的所述字向量,生成所述字向量序列。3.根据权利要求2所述的方法,其特征在于,分别对于所述至少一个文本字中的每个文本字,得到所述文本字的字向量,包括:分别对于所述至少一个文本字中的每个文本字,采用字符级词向量模型对所述文本字进行字符向量映射,得到所述字向量。4.根据权利要求1所述的方法,其特征在于,所述BiLSTM‑CRF模型包括双向LSTM层和CRF层;利用预先训练得到的BiLSTM‑CRF模型对所述字向量序列进行推理,得到与所述非法集资线索数据对应的标签序列,包括:将所述字向量序列输入所述双向LSTM层,得到所述非法集资数据的语句特征矩阵;利用所述CRF层对所述语句特征矩阵进行推理,得到与所述非法集资线索数据对应的标签序列。5.根据权利要求4所述的方法,其特征在于,利用所述CRF层对所述语句特征矩阵进行推理,得到与所述非法集资线索数据对应的标签序列,包括:对所述语句特征矩阵进行标注解码,得到至少一个标签序列;分别对于至少一个标签序列中的每个标签序列,确定所述非法集资数据对应于所述标签序列的概率;将所述至少一个标签序列中概率最大的标签序列,作为与所述非法集资线索数据对应的标签序列。6.根据权利要求5所述的方法,其特征在于,确定所述非法集资数据对应于所述标签序列的概率,包括:确定所述非法集资数据对应于所述标签序列的预测概率;对所述预测概率进行归一化处理,得到所述概率。7.根据权利要求4所述的方法,其特征在于,所述双向LSTM层包括正向LSTM层和反向LSTM层;将所述字向量序列输入所述双向LSTM层,得到所述非法集资数据的语句特征矩阵,包括:将所述字向量序列输入所述正向LSTM,得到第一隐状态序列;2CN114861661A权利要求书2/2页将所述字向量序列输入所述反向LSTM,得到第二隐状态序列;对所述第一隐状态序列和所述第二隐状态序列进行拼接,得到完整隐状态序列;对所述完整隐状态序列进行维度映射,得到所述语句特征矩阵。8.根据权利要求1所述的方法,其特征在于,获取非法集资线索数据,包括:获取M条原始数据;从所述M条原始数据中筛选N条疑似线索数据;分别对于所述N条疑似线索数据中的每条疑似线索数据,采用预设分类器确定所述疑似线索数据的类别,并当所述类别为线索信息时,将所述疑似线索数据确定为所述非法集资线索数据。9.根据权利要求8所述的方法,其特征在于,所述预设分类器包括第一分类器、第二分类器和第三分类器;采用预设分类器确定所述疑似线索数据的类别,包括:采用所述第一分类器确定所述疑似线索数据的第一类别、采用所述第二分类器确定所述疑似线索数据的第二类别、以及采用所述第三分类器确定所述疑似线索数据的第三类别;从所述第一类别、所述第二类别和所述第三