预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110543638A(43)申请公布日2019.12.06(21)申请号201910854243.4(22)申请日2019.09.10(71)申请人杭州橙鹰数据技术有限公司地址310000浙江省杭州市余杭区五常街道文一西路969号2号楼1楼101室(72)发明人徐祥(74)专利代理机构北京智信禾专利代理有限公司11637代理人刘晓楠(51)Int.Cl.G06F17/27(2006.01)权利要求书4页说明书10页附图7页(54)发明名称一种命名实体识别的方法和装置(57)摘要本申请提供一种命名实体识别的方法和装置,所述方法包括:接收原始文本,分离所述原始文本获取文本单元;根据所述文本单元确定文本单元表示向量;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。以文本单元对应的拆分特征作为最小元素进行处理,这样可以最大程度保留文本单元作为象形字或形声字的内在特征,保留文本单元间内在的特征,提高命名实体识别的准确度。CN110543638ACN110543638A权利要求书1/4页1.一种命名实体识别的方法,其特征在于,包括:接收原始文本,分离所述原始文本获取文本单元;根据所述文本单元确定文本单元表示向量;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量;根据所述原始文本的特征表示向量和所述文本单元表示向量确定所述原始文本中的命名实体。2.根据权利要求1所述的方法,其特征在于,所述原始文本包括n个第一语言单字;分离所述原始文本获取文本单元,包括:分离所述原始文本获取第一语言单字;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量,包括:S301:判断第i个第一语言单字是否可以拆分,1≤i≤n,若是,执行S302,若否,执行S303;S302:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行S304;S303:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量,执行S304;S304;将i自增1,判断i是否大于n,若否,执行S301,若是,执行S305;S305:根据每个第一语言单字对应的拆分特征表示向量确定所述原始文本的特征表示向量。3.根据权利要求1所述的方法,其特征在于,所述原始文本包括m个第二语言单词;分离所述原始文本获取文本单元,包括:分离所述原始文本获取第二语言单词;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量,包括:S401:判断第j个第二语言单词是否可以拆分,1≤j≤m,若是,执行S402,若否,执行S403;S402:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S404;S403:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S404;S404:将j自增1,判断j是否大于m,若否,执行S401,若是,执行S405;S405:根据每个第二语言单词对应的拆分特征表示向量确定所述原始文本的特征表示向量。4.根据权利要求1所述的方法,其特征在于,分离所述原始文本获取文本单元,包括:分离所述原始文本获取h个文本单元,所述文本单元为第一语言单字或第二语言单词;获取所述文本单元对应的拆分特征,根据所述文本单元的拆分特征确定所述原始文本的特征表示向量,包括:2CN110543638A权利要求书2/4页S501:判断第k个文本单元为第一语言单字或第二语言单词,1≤k≤h,若第k个文本单元为第一语言单字,执行S502,若第k个文本单元为第二语言单词,执行S505;S502:判断第k个第一语言单字是否可以拆分,若是,执行S503,若否,执行S504;S503:拆分所述第一语言单字获取所述第一语言单字的偏旁部首,根据所述第一语言单字的偏旁部首确定所述第一语言单字的拆分特征表示向量,执行步骤507;S504:将所述第一语言单字对应的表示向量作为所述第一语言单字对应的拆分特征表示向量;S505:判断第k个第二语言单词是否可以拆分,若是,执行S506,若否,执行S507;S506:拆分所述第二语言单词获取所述第二语言单词的字符,根据所述第二语言单词的字符确定所述第二语言单词的拆分特征表示向量,执行S508;S507:将所述第二语言单词对应的表示向量作为所述第二语言单词对应的拆分特征表示向量,执行S508;S508:将k自增