文本编码模型的训练方法、信息检索方法及设备-豆柴文库

文本编码模型的训练方法、信息检索方法及设备.pdf

2023-07-25

10金币

1.3MB

24页

山柳****魔王

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共24页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761124A(43)申请公布日2021.12.07(21)申请号202110572323.8(22)申请日2021.05.25(71)申请人腾讯科技（深圳）有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人欧子菁赵瑞辉(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人张所明(51)Int.Cl.G06F16/33(2019.01)G06F40/126(2020.01)G06F40/30(2020.01)权利要求书2页说明书14页附图7页(54)发明名称文本编码模型的训练方法、信息检索方法及设备(57)摘要本申请实施例公开了一种文本编码模型的训练方法、信息检索方法及设备，属于机器学习技术领域。该方法包括：将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量；基于样本特征向量以及目标函数确定模型损失；基于模型损失对文本编码模型进行迭代训练。响应于文本检索操作，基于文本检索操作获取检索信息；将检索信息输入文本编码模型，得到检索信息对应的检索信息特征向量；基于检索信息特征向量从文本库中确定目标文本；通过检索结果展示界面显示目标文本。基于样本文本的网络关系进行建模，同时在文本关系网络的网络边稀疏、噪声较多的情况下，模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示。CN113761124ACN113761124A权利要求书1/2页1.一种文本编码模型的训练方法，其特征在于，所述方法包括：将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量，所述文本关系网络是以所述样本文本为节点，以邻居节点之间的连线为边的无向图，所述邻居节点之间具有相同的文本属性；基于所述样本特征向量以及目标函数确定模型损失，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征所述样本特征向量对所述样本文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；基于所述模型损失对所述文本编码模型进行迭代训练。2.根据权利要求1所述的方法，其特征在于，所述将文本关系网络中的样本文本输入文本编码模型之前，所述方法包括：对所述样本文本进行语义信息提取，得到所述样本文本的所述文本属性；将具有相同所述文本属性的所述样本文本相连，生成所述文本关系网络；基于所述文本关系网络的网络结构生成邻接矩阵，所述邻接矩阵是用于表征所述文本关系网络中节点之间关系的二维数组；将所述邻接矩阵输入所述文本编码模型，得到所述目标函数。3.根据权利要求2所述的方法，其特征在于，所述文本编码模型为生成模型；所述将所述邻接矩阵输入所述文本编码模型，得到所述目标函数，包括：将所述邻接矩阵输入所述文本编码模型，得到所述目标函数中的先验分布函数，所述先验分布函数是以目标协方差矩阵为方差的高斯分布函数，所述目标协方差矩阵为所述邻接矩阵对应的精度矩阵的逆矩阵；基于所述先验分布函数构建所述目标函数。4.根据权利要求3所述的方法，其特征在于，所述基于所述先验分布函数构建所述目标函数，包括：以目标期望为所述第一函数项，以目标相对熵的相反数为所述第二函数项，构建所述目标函数，所述目标期望为所述样本文本与所述样本特征向量的联合概率分布的期望，所述目标相对熵为后验分布函数与所述先验分布函数之间的相对熵，所述后验分布函数为所述样本特征向量与所述样本文本之间联合概率分布的变分分布。5.一种信息检索方法，其特征在于，所述方法包括：响应于文本检索操作，基于所述文本检索操作获取检索信息；将所述检索信息输入文本编码模型，得到所述检索信息对应的检索信息特征向量，所述文本编码模型是以目标函数为训练目标，基于文本关系网络训练得到的模型，所述文本关系网络是以文本为节点，以文本之间的关系为边的无向图，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；基于所述检索信息特征向量从文本库中确定目标文本，所述目标文本是与所述检索信息之间存在相关性的文本；通过检索结果展示界面显示所述目标文本。2CN113761124A权利要求书2/2页6.根据权利要求5所述的方法，其特征在于，所述基于所述检索信息特征向量从文本库中确定目标文本，包括：获取所述文本库中各个候选文本的候选文本特征向量，所述候选文本特征向量是通过将所述候选文本输入所述文本编码模型得到的；计算所述检索信息特征向量与各个候选文本特征向量之间的相似度；将所述相似度大于相似度阈值的所述候选文本确定为所述目标文本。7.一种文

相关资料

文本编码模型的训练方法、信息检索方法及设备.pdf

本申请实施例公开了一种文本编码模型的训练方法、信息检索方法及设备，属于机器学习技术领域。该方法包括：将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量；基于样本特征向量以及目标函数确定模型损失；基于模型损失对文本编码模型进行迭代训练。响应于文本检索操作，基于文本检索操作获取检索信息；将检索信息输入文本编码模型，得到检索信息对应的检索信息特征向量；基于检索信息特征向量从文本库中确定目标文本；通过检索结果展示界面显示目标文本。基于样本文本的网络关系进行建模，同时在文本关系网络的网络

2023-07-25

1.3MB

信息检索模型训练方法、信息检索模型训练方法、装置.pdf

本公开的实施例公开了信息检索模型训练方法、信息检索模型训练、装置、设备和介质。该方法的一具体实施方式包括：获取与目标用户对应的目标查询信息、训练文本集和未点击文本集；将训练文本集中每个训练文本和未点击文本集中每个未点击文本分别与目标查询信息进行组合，以生成训练文本对和未点击文本对，得到训练文本对集和未点击文本对集；获取预先建立的生成式对抗网络；对生成网络和判别网络进行训练，将训练后的判别网络确定为第一信息检索模型，其中，判别网络在训练过程中对生成网络采样出的未点击文本对和训练文本对集加入对应的虚拟对抗性扰

2023-06-14

1.1MB

文本检索方法、模型训练方法、文本检索装置及存储介质.pdf

本说明书涉及一种文本检索方法包括：对接收的第一文本进行分词，得到至少一个词语；根据所述至少一个词语从知识库中召回至少一个第二文本；将所述至少一个词语输入经过训练的文本向量模型，得到所述第一文本的文本向量；根据所述第一文本的向量从所述知识库中召回至少一个第三文本；以及将所述至少一个第二文本和所述至少一个第三文本进行融合，得到文本检索结果。本说明书还提供了词权重模型和文本向量模型的训练方法、文本检索装置、电子设备以及计算机可读存储介质。

2023-05-25

1.6MB

图像检索模型的训练方法、装置、设备及存储介质.pdf

本申请公开了一种图像检索模型的训练方法、装置、设备及存储介质。所述方法包括：获取图像检索模型；获取训练样本，训练样本包括图像样本以及图像样本的标注信息；根据图像样本的标注信息，确定图像样本对应的哈希中心；通过图像样本的哈希码和图像样本对应的哈希中心，对图像检索模型进行训练，得到完成训练的图像检索模型。由于在每一轮训练过程中是将图像样本的哈希码与其所属类别的哈希中心靠近，该哈希中心反映的是图像所属类别的类别特征，因此在每一轮训练中可以同时获取到一个类别的相似度信息；相比于相关技术中，每一轮训练中只能得到两张

2023-08-28

1.6MB

文本信息抽取方法、模型训练方法、装置及存储介质.pdf

本申请公开了一种文本信息抽取方法、模型训练方法、文本信息抽取装置、模型训练装置及存储介质,将获取的待处理文本输入至第一机器学习模型，提取待处理文本的第一文本特征信息，通过第二机器学习模型对待处理文本的多个文本属性信息进行交叉组合后得到多个文本交互属性信息，和文本属性信息进行组合得到组合属性信息。通过将组合属性信息分别与各个第一文本特征信息进行拼接后进行分类处理，确定目标文本信息。通过引入多个文本属性信息并对多个文本属性信息进行交叉组合，能够加强不同文本属性信息之间的交互，以识别到最有区分性的特征组合表示，

2023-07-25

1.1MB