预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114661878A(43)申请公布日2022.06.24(21)申请号202210287153.3(22)申请日2022.03.22(71)申请人工银科技有限公司地址071700河北省保定市中国(河北)自由贸易试验区雄安片区容城县雄安市民服务中心企业办公区C栋第1层111单元申请人中国工商银行股份有限公司(72)发明人张文慧陈薇孙科伟(74)专利代理机构中科专利商标代理有限责任公司11021专利代理师孙蕾(51)Int.Cl.G06F16/332(2019.01)G06F16/33(2019.01)权利要求书3页说明书15页附图8页(54)发明名称文本处理方法及装置、电子设备和计算机可读存储介质(57)摘要本公开提供了一种文本处理方法及装置、电子设备和计算机可读存储介质,可以应用于自然语言处理领域和金融领域。该文本处理方法包括:响应于接收到初始搜索文本,根据初始搜索文本,从历史文本数据库中确定与初始搜索文本具有关联关系的初始历史文本,其中,历史文本数据库包括至少一个历史文本和至少一个匹配文本,至少一个历史文本和至少一个匹配文本一一对应;根据初始搜索文本和初始历史文本,获取网络知识文本;利用网络知识文本,分别对初始搜索文本和初始历史文本进行文本嵌入处理,得到处理后的目标搜索文本和目标历史文本;根据目标搜索文本和目标历史文本,确定与目标历史文本对应的目标文本。CN114661878ACN114661878A权利要求书1/3页1.一种文本处理方法,包括:响应于接收到初始搜索文本,根据所述初始搜索文本,从历史文本数据库中确定与所述初始搜索文本具有关联关系的初始历史文本,其中,所述历史文本数据库包括至少一个历史文本和至少一个匹配文本,所述至少一个历史文本和所述至少一个匹配文本一一对应;根据所述初始搜索文本和所述初始历史文本,获取网络知识文本;利用所述网络知识文本,分别对所述初始搜索文本和所述初始历史文本进行文本嵌入处理,得到处理后的目标搜索文本和目标历史文本;以及根据所述目标搜索文本和所述目标历史文本,确定与所述目标历史文本对应的目标文本。2.根据权利要求1所述的方法,还包括,在所述响应于接收到初始搜索文本,根据所述初始搜索文本,从历史文本数据库中确定与所述初始搜索文本具有关联关系的初始历史文本之后:对所述初始搜索文本和所述初始历史文本分别进行分词处理,得到初始搜索文本词序列和初始历史文本词序列;对所述初始搜索文本词序列和所述初始历史文本词序列进行预处理,得到经预处理的搜索文本词序列和历史文本词序列,其中,所述预处理包括停用词过滤和标点符号过滤中的至少一个;以及将所述经预处理的搜索文本词序列和历史文本词序列进行匹配,得到匹配词汇集合和差异词汇集合,其中,所述差异词汇集合包括搜索文本差异词汇集合和历史文本差异词汇集合。3.根据权利要求2所述的方法,其中,所述匹配词汇集合包括所述搜索文本词序列和所述历史文本词序列中匹配的匹配词汇,所述搜索文本差异词汇集合包括所述搜索文本词序列中与所述历史文本词序列不匹配的第一差异词汇,所述历史文本差异词汇集合包括所述历史文本词序列中与所述搜索文本词序列不匹配的第二差异词汇;所述根据所述初始搜索文本和所述初始历史文本,获取网络知识文本包括:根据所述匹配词汇、所述第一差异词汇和所述第二差异词汇中的每个目标词汇,分别获取所述网络知识文本,其中,所述网络知识文本包括与所述目标词汇对应的一个或多个词义文本;在所述网络知识文本包括一个所述词义文本的情况下,构建单义词汇表,其中,所述单义词汇表用于表征至少一个所述目标词汇与一个所述词义文本的对应关系;以及在所述网络知识文本包括多个所述词义文本的情况下,构建多义词汇表,其中,所述多义词汇表用于表征至少一个所述目标词汇与多个所述词义文本的对应关系。4.根据权利要求3所述的方法,还包括,在所述利用所述网络知识文本,分别对所述初始搜索文本和所述初始历史文本进行文本嵌入处理,得到处理后的目标搜索文本和目标历史文本之前:根据所述单义词汇表、所述多义词汇表、所述匹配词汇集合和所述差异词汇集合,确定词义类别,其中,所述词义类别包括单义匹配词汇集合、多义匹配词汇集合、单义差异词汇集合和多义差异词汇集合。2CN114661878A权利要求书2/3页5.根据权利要求4所述的方法,还包括:将一个或多个所述词义文本和所述初始搜索文本输入预先训练完成的语义编码模型,得到搜索文本相似度结果;将一个或多个所述词义文本和所述初始历史文本输入所述预先训练完成的语义编码模型,得到历史文本相似度结果;以及根据预设阈值,基于所述搜索文本相似度结果和所述历史文本相似度结果,确定搜索文本词义集合和历史文本词义集合。6.根据权利要求5所述的方法,其中,所