预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114281934A(43)申请公布日2022.04.05(21)申请号202111086778.5G06N3/08(2006.01)(22)申请日2021.09.16G06N20/00(2019.01)(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人房育勋朱斌肖任(74)专利代理机构广州三环专利商标代理有限公司44202代理人熊永强贾允(51)Int.Cl.G06F16/33(2019.01)G06F40/295(2020.01)G06F40/30(2020.01)G06F40/242(2020.01)G06N3/04(2006.01)权利要求书2页说明书16页附图6页(54)发明名称文本识别方法、装置、设备及存储介质(57)摘要本申请公开了一种文本识别方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:获取目标文本;确定目标文本中文本字符对应的字符特征信息和词语特征信息;对字符特征信息和词语特征信息进行特征融合处理,得到文本字符对应的字词联合特征信息;基于字词联合特征信息,对目标文本进行实体识别处理,得到目标文本对应的文本识别结果。本申请实施例提供的技术方案中,通过对文本字符对应的字符特征和词语特征进行融合,可得到文本字符对应的字词联合特征,再对字词联合特征进行实体识别,有效提升命名实体识别准确率,得到准确的文本识别结果。本申请实施例可以应用于云技术、人工智能、智慧交通、车联网等各种场景。CN114281934ACN114281934A权利要求书1/2页1.一种文本识别方法,其特征在于,所述方法包括:获取目标文本;确定所述目标文本中文本字符对应的字符特征信息和词语特征信息;对所述字符特征信息和所述词语特征信息进行特征融合处理,得到所述文本字符对应的字词联合特征信息;基于所述字词联合特征信息,对所述目标文本进行实体识别处理,得到所述目标文本对应的文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述文本识别结果包括所述目标文本中属于目标实体类型的目标字词,所述基于所述字词联合特征信息,对所述目标文本进行实体识别处理,得到所述目标文本对应的文本识别结果,包括:对所述字词联合特征信息进行实体识别处理,得到所述文本字符对应的实体类型标签;将所述目标文本中实体类型标签对应于所述目标实体类型的文本字符,确定为目标字符;基于所述目标字符,确定所述目标文本中属于所述目标实体类型的目标字词。3.根据权利要求2所述的方法,其特征在于,所述对所述字词联合特征信息进行实体识别处理,得到所述文本字符对应的实体类型标签,包括:对所述字词联合特征信息进行门控卷积处理,得到所述文本字符对应的中间特征信息,所述门控卷积处理是指对所述字词联合特征信息进行卷积并控制输出特征信息的处理;对所述中间特征信息进行实体类型预测处理,得到所述文本字符对应的实体类型标签。4.根据权利要求1所述的方法,其特征在于,所述对所述字符特征信息和所述词语特征信息进行特征融合处理,得到所述文本字符对应的字词联合特征信息,包括:对所述词语特征信息进行特征变换处理,得到变换后词语特征信息,所述变换后词语特征信息与所述字符特征信息的特征维度相同;将所述变换后词语特征信息与所述字符特征信息进行特征融合处理,得到所述文本字符对应的字词联合特征信息。5.根据权利要求2所述的方法,其特征在于,所述对所述词语特征信息进行特征变换处理,得到变换后词语特征信息,包括:获取特征变换信息,所述特征变换信息用于调整所述词语特征信息的特征维度;基于所述特征变换信息,对所述词语特征信息进行所述特征变换处理,得到所述变换后词语特征信息。6.根据权利要求1至5任一项所述的方法,其特征在于,所述确定所述目标文本中文本字符对应的字符特征信息和词语特征信息,包括:获取词典映射信息;基于所述词典映射信息,确定所述文本字符对应的字符特征信息;对所述目标文本进行分词处理,得到分词结果;基于所述分词结果与所述词典映射信息,确定所述文本字符对应的词语特征信息。2CN114281934A权利要求书2/2页7.根据权利要求6所述的方法,其特征在于,所述基于所述分词结果与所述词典映射信息,确定所述文本字符对应的词语特征信息,包括:基于所述词典映射信息,确定所述分词结果中各字词对应的词向量;对所述各字词进行词性分析处理,得到所述各字词对应的词性向量;根据所述词向量和所述词性向量,生成所述各字词对应的词语特征信息;将所述文本字符所在字词对应的词语特征信息作为所述文本字符对应的词语特征信息。8.一种文本识别装置,其特征在于,所述装置包括:文本获取模块,用于获取目标文本;独立特征确定模