预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115906855A(43)申请公布日2023.04.04(21)申请号202211690568.1(22)申请日2022.12.27(71)申请人浙江邦盛科技股份有限公司地址310012浙江省杭州市西湖区西斗门路3号天堂软件园D幢17层ABCD座申请人杭州邦睿科技有限公司(72)发明人汪陈笑鲍迪恩蒋炜邓静陈盼盼(74)专利代理机构杭州求是专利事务所有限公司33200专利代理师刘静(51)Int.Cl.G06F40/295(2020.01)G06F40/284(2020.01)G06F18/25(2023.01)权利要求书2页说明书7页附图3页(54)发明名称一种字词信息融合的中文地址命名实体识别方法及装置(57)摘要本发明公开了一种字词信息融合的中文地址命名实体识别方法及装置。主要分为三部分:词汇信息生成网络构建,标签分布学习网络构建和字符标签学习网络构建。本发明以在文本表示中获取并融入词汇信息为目标,通过n‑gram片段来表征词汇,针对字符模型缺乏足够上下文信息的缺陷,本发明综合字符信息和词汇信息,其中词汇信息生成来源选取是基于标签学习网络学习的字符词位信息,通过词位信息选取其中更适合的n‑gram片段表征字符所属词汇,最终给予模型足够且正确的上下文信息来学习全文信息,并开展下游命名实体识别任务的进行。本发明在保证融入词汇信息基于原始数据的同时,加快模型获取具体词汇的速度,同时提升了模型的精度。CN115906855ACN115906855A权利要求书1/2页1.一种字词信息融合的中文地址命名实体识别方法,其特征在于,该方法包括以下步骤:(1)获取中文地址的n‑gram片段向量表示为X=(x1,x2,…,xn),以及获取对应的真实词汇片段Y=(y1,y2,…,ym);其中n是n‑gram片段中的字符数量,m是真实词汇片段中的字符数量;(2)构建词汇信息生成网络,采用双塔模型的结构,该网络具体操作如下:(2.1)将n‑gram片段和真实词汇片段输入到词汇信息生成网络中,经过Embedding层获取随机字符向量编码;(2.2)将字符向量编码经ELMO层和Dense层学习字符向量表示;(2.3)字符向量表示经平均池化层(meanpooling)后,文本片段表征为词向量;(2.4)在分类学习器中,将n‑gram片段的词向量和真实词汇片段的词向量拼接,然后继续拼接两个词向量间差值与点乘,以获得词语间关系特征,经过全连接层后,将向量维度映射到二维空间中,判断两向量间的相似性;(3)构建词汇信息获取网络,包含标签分布学习网络和字符标签学习网络两部分;所述标签分布学习网络用和词汇信息生成网络同样的方式获取n‑gram片段的字符向量表示,并提取文本特征编码,使用全连接层作为解码器,获取词汇对应标签的概率分布Plabel作为条件随机场的状态矩阵,通过条件随机场进行标签推断;所述字符标签学习网络具体操作如下:(3.1)选取标签分布学习网络经过Embedding层输出的字符向量EC作为嵌入层输出的一部分;(3.2)根据当前字在n‑gram中的不同位置以及词位标注种类q,通过词汇信息生成网络,获取最后一个Dense层之前的词向量集合为标注种类q的词向量;(3.3)根据标签分布学习网络得到的标签的概率分布Plabel,学习每个字符标签属于各词位标注的概率Ppos;(3.4)根据步骤(3.2)所得的词向量集合Eτ和步骤(3.3)所得的词位标注概率Ppos,通过张量积获取嵌入层中词汇信息EW;(3.5)结合字符向量EC和嵌入层中词汇信息EW,输入WP‑LSTM模型,然后使用Dense层和条件随机场作为解码器和标签推断层,输出Z=(z1,z2,…,zn)为预测的标签,最终学习中文地址命名实体识别中的字符关系,实现中文地址命名实体识别。2.根据权利要求1所述的一种字词信息融合的中文地址命名实体识别方法,其特征在于,ELMO是由两个双向LSTM(BidirectionalLSTM)组成的网络结构;ELMO层最终向量表示为:其中为第i个位置的字符向量,γtask为预训练任务相关的系数,L为层数,2CN115906855A权利要求书2/2页是归一化后相关层的权重系数,为第j层BiLSTM的输出向量,包含前文信息,包含后文信息。3.根据权利要求2所述的一种字词信息融合的中文地址命名实体识别方法,其特征在于,训练过程中,ELMO综合前后文的损失为训练目标,即最优化如下loss:其中θx表示字符输入向量,表示前向LSTM参数,表示逆向LSTM参数,θs表示softmax层,p表示概率,tk表示位置k处的文本。4.根据权利要求1所述的一种字词信息融合的中文地址命名实体识别方法,其特征在于,文本片段可表征为词向