预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114218351A(43)申请公布日2022.03.22(21)申请号202111424411.XG06K9/62(2022.01)(22)申请日2021.11.26G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人北京工业大学地址100022北京市朝阳区平乐园100号(72)发明人李建强虞杨竹志超马泽锐李博雅(74)专利代理机构北京路浩知识产权代理有限公司11002代理人杨明月(51)Int.Cl.G06F16/33(2019.01)G06F40/211(2020.01)G06F40/284(2020.01)G06F40/289(2020.01)G06F40/30(2020.01)权利要求书2页说明书10页附图5页(54)发明名称文本检索方法及装置(57)摘要本发明提供一种文本检索方法及装置,其中方法包括:获取待检索文本;对所述待检索文本进行分句,获得所述待检索文本的多个分句;对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。本发明实施例通过字级语义特征和词级语义特征的结合,实现了双层粒度语义分析,避免了单层粒度语义信息的遗漏,提高了文本检索的正确率。CN114218351ACN114218351A权利要求书1/2页1.一种文本检索方法,其特征在于,包括:获取待检索文本;对所述待检索文本进行分句,获得所述待检索文本的多个分句;对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。2.根据权利要求1所述的文本检索方法,其特征在于,所述对每个所述分句进行词级语义分析,获得每个所述分句的词级语义特征,包括:对每个所述分句进行分词处理,获得词序列;对所述词序列中的词语进行分字,获得每个所述词语的字集合;对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征;基于所述字的词级语义特征,获得所述分句的词级语义特征。3.根据权利要求2所述的文本检索方法,其特征在于,所述对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征,包括:对所述字集合进行词嵌入处理,获得与所述字集合对应的第一字向量集合;将所述第一字向量集合输入至词级双向长短期记忆神经网络,获得所述词级双向长短期记忆神经网络输出的所述字集合中每个字在所述词语中的语义特征。4.根据权利要求1至3任一项所述的文本检索方法,其特征在于,所述对每个所述分句进行字级语义分析,获得每个所述分句的字级语义特征,包括:对每个所述分句进行分字处理,获得字序列;对所述字序列进行词嵌入处理,获得与所述字序列对应的第二字向量集合;将所述第二字向量集合输入至字级双向长短期记忆神经网络,获得所述字级双向长短期记忆神经网络输出的每个所述分句的字级语义特征。5.根据权利要求1至3任一项所述的文本检索方法,其特征在于,所述基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本,包括:对每个所述分句的字级语义特征和每个所述分句的词级语义特征进行拼接融合,获得每个所述分句的语义特征;将所有所述分句的语义特征相加,获得所述待检索文本的语义特征;基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本。6.根据权利要求5所述的文本检索方法,其特征在于,所述基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本,包括:将所述待检索文本与所述候选文本依次进行相似度计算,获得相似度计算结果;根据所述相似度计算结果,按照相似度由高到低对所述候选文本进行排序,获得目标文本列表;基于所述目标文本列表,获得所述目标文本。7.一种文本检索装置,其特征在于,包括:获取模块,用于获取待检索文本;2CN114218351A权利要求书2/2页分句模块,用于对所述待检索文本进行分句,获得所述待检索文本的多个分句;分析模块,用于对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;检索模块,用于基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述文本检索方法的步骤。9.一种非暂态计算机可读存储