预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761124A(43)申请公布日2021.12.07(21)申请号202110572323.8(22)申请日2021.05.25(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人欧子菁赵瑞辉(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人张所明(51)Int.Cl.G06F16/33(2019.01)G06F40/126(2020.01)G06F40/30(2020.01)权利要求书2页说明书14页附图7页(54)发明名称文本编码模型的训练方法、信息检索方法及设备(57)摘要本申请实施例公开了一种文本编码模型的训练方法、信息检索方法及设备,属于机器学习技术领域。该方法包括:将文本关系网络中的样本文本输入文本编码模型,得到各个样本文本对应的样本特征向量;基于样本特征向量以及目标函数确定模型损失;基于模型损失对文本编码模型进行迭代训练。响应于文本检索操作,基于文本检索操作获取检索信息;将检索信息输入文本编码模型,得到检索信息对应的检索信息特征向量;基于检索信息特征向量从文本库中确定目标文本;通过检索结果展示界面显示目标文本。基于样本文本的网络关系进行建模,同时在文本关系网络的网络边稀疏、噪声较多的情况下,模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示。CN113761124ACN113761124A权利要求书1/2页1.一种文本编码模型的训练方法,其特征在于,所述方法包括:将文本关系网络中的样本文本输入文本编码模型,得到各个样本文本对应的样本特征向量,所述文本关系网络是以所述样本文本为节点,以邻居节点之间的连线为边的无向图,所述邻居节点之间具有相同的文本属性;基于所述样本特征向量以及目标函数确定模型损失,所述目标函数包含第一函数项和第二函数项,所述第一函数项用于表征所述样本特征向量对所述样本文本中语义信息的表示质量,所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量;基于所述模型损失对所述文本编码模型进行迭代训练。2.根据权利要求1所述的方法,其特征在于,所述将文本关系网络中的样本文本输入文本编码模型之前,所述方法包括:对所述样本文本进行语义信息提取,得到所述样本文本的所述文本属性;将具有相同所述文本属性的所述样本文本相连,生成所述文本关系网络;基于所述文本关系网络的网络结构生成邻接矩阵,所述邻接矩阵是用于表征所述文本关系网络中节点之间关系的二维数组;将所述邻接矩阵输入所述文本编码模型,得到所述目标函数。3.根据权利要求2所述的方法,其特征在于,所述文本编码模型为生成模型;所述将所述邻接矩阵输入所述文本编码模型,得到所述目标函数,包括:将所述邻接矩阵输入所述文本编码模型,得到所述目标函数中的先验分布函数,所述先验分布函数是以目标协方差矩阵为方差的高斯分布函数,所述目标协方差矩阵为所述邻接矩阵对应的精度矩阵的逆矩阵;基于所述先验分布函数构建所述目标函数。4.根据权利要求3所述的方法,其特征在于,所述基于所述先验分布函数构建所述目标函数,包括:以目标期望为所述第一函数项,以目标相对熵的相反数为所述第二函数项,构建所述目标函数,所述目标期望为所述样本文本与所述样本特征向量的联合概率分布的期望,所述目标相对熵为后验分布函数与所述先验分布函数之间的相对熵,所述后验分布函数为所述样本特征向量与所述样本文本之间联合概率分布的变分分布。5.一种信息检索方法,其特征在于,所述方法包括:响应于文本检索操作,基于所述文本检索操作获取检索信息;将所述检索信息输入文本编码模型,得到所述检索信息对应的检索信息特征向量,所述文本编码模型是以目标函数为训练目标,基于文本关系网络训练得到的模型,所述文本关系网络是以文本为节点,以文本之间的关系为边的无向图,所述目标函数包含第一函数项和第二函数项,所述第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量,所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量;基于所述检索信息特征向量从文本库中确定目标文本,所述目标文本是与所述检索信息之间存在相关性的文本;通过检索结果展示界面显示所述目标文本。2CN113761124A权利要求书2/2页6.根据权利要求5所述的方法,其特征在于,所述基于所述检索信息特征向量从文本库中确定目标文本,包括:获取所述文本库中各个候选文本的候选文本特征向量,所述候选文本特征向量是通过将所述候选文本输入所述文本编码模型得到的;计算所述检索信息特征向量与各个候选文本特征向量之间的相似度;将所述相似度大于相似度阈值的所述候选文本确定为所述目标文本。7.一种文