预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114118049A(43)申请公布日2022.03.01(21)申请号202111266037.5(22)申请日2021.10.28(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦二层(72)发明人陈禹燊韩光耀苏磊姜泽青李治平岳洪达许海洋栾明(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人单冠飞(51)Int.Cl.G06F40/205(2020.01)G06F40/30(2020.01)G06V30/10(2022.01)G06N3/08(2006.01)权利要求书4页说明书15页附图7页(54)发明名称信息获取方法、装置、电子设备及存储介质(57)摘要本公开提供了一种信息获取方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及深度学习、自然语言处理等人工智能技术领域。具体实现方案为:获取待处理文件和信息类型,并从待处理文件中识别出与信息类型相关的至少一个候选信息,再确定候选信息的目标识别特征和候选信息的语义特征,其中,目标识别特征用于描述候选信息与信息类型的匹配情况,以及根据目标识别特征和语义特征,从至少一个候选信息之中确定出目标信息,由此,能够有效地提升信息获取方法的适用性。CN114118049ACN114118049A权利要求书1/4页1.一种信息获取方法,包括:获取待处理文件和信息类型;从所述待处理文件中识别出与所述信息类型相关的至少一个候选信息;确定所述候选信息的目标识别特征和所述候选信息的语义特征,其中,所述目标识别特征用于描述所述候选信息与所述信息类型的匹配情况;以及根据所述目标识别特征和所述语义特征,从所述至少一个候选信息之中确定出目标信息。2.根据权利要求1所述的方法,所述待处理文件的数据量小于或等于预设阈值,其中,所述获取待处理文件,包括:获取初始文件;基于所述预设阈值对所述初始文件进行拆分处理,以得到至少一个所述待处理文件。3.根据权利要求2所述的方法,其中,所述从所述待处理文件中识别出与所述信息类型相关的至少一个候选信息,包括:采用并行处理方式分别从所述至少一个待处理文件中识别出与所述信息类型相关的至少一个候选信息。4.根据权利要求1所述的方法,其中,所述从所述待处理文件中识别出与所述信息类型相关的至少一个候选信息,包括:确定与所述待处理文件对应的待处理文本;从所述待处理文本中识别出至少一个连续文本信息;从所述至少一个连续文本信息中识别出与所述信息类型匹配的连续文本信息,并将所述连续文本信息作为所述候选信息。5.根据权利要求4所述的方法,其中,所述从所述至少一个连续文本信息中识别出与所述信息类型匹配的连续文本信息,包括:确定与所述至少一个连续文本信息分别对应的至少一个语义权重值;根据所述语义权重值对所述至少一个连续文本信息进行排序,得到至少一个排序后连续文本信息;从所述至少一个排序后连续文本信息中提取出与所述信息类型匹配,且排序在前的参考数量的连续文本信息。6.根据权利要求5所述的方法,其中,所述方法还包括:基于所述信息类型确定所述参考数量。7.根据权利要求5所述的方法,其中,所述确定与所述至少一个连续文本信息分别对应的至少一个语义权重值,包括:针对一个连续文本信息,确定该连续文本信息在所述待处理文本中的出现次数值,并根据所述出现次数值确定对应该连续文本信息的语义权重值。8.根据权利要求1所述的方法,其中,所述确定所述候选信息的目标识别特征,包括:确定与所述候选信息对应的至少一个初始识别特征,其中,所述初始识别特征是所述候选信息的类型是所述信息类型的概率特征;根据所述至少一个初始识别特征,生成所述目标识别特征。9.根据权利要求8所述的方法,其中,所述确定与所述候选信息对应的至少一个初始识2CN114118049A权利要求书2/4页别特征,包括:确定所述候选信息的多个字符;确定与所述多个字符分别对应的多个字符识别置信度,并基于所述多个字符识别置信度分别确定对应的初始识别特征。10.根据权利要求9所述的方法,其中,所述根据所述至少一个初始识别特征,生成所述目标识别特征,包括:确定所述多个字符识别置信度之中最小字符识别置信度,其中,所述最小字符识别置信度被作为所述目标识别特征;和/或确定所述多个字符识别置信度的平均字符识别置信度,其中,所述平均字符识别置信度被作为所述目标识别特征。11.根据权利要求1所述的方法,其中,所述确定所述候选信息的语义特征,包括:确定与所述信息类型对应的索引信息,并确定与所述索引信息对应的索引特征,其中,所述索引特征被作为所述语义特征;和/或确定与所述信息类型对应的类型特征,其中,所述类型特征被作为所述语义特征;和/或确定所述