预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186548A(43)申请公布日2022.03.15(21)申请号202111534297.6(22)申请日2021.12.15(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人陈浩(74)专利代理机构深圳市明日今典知识产权代理事务所(普通合伙)44343代理人王杰辉曹勇(51)Int.Cl.G06F40/194(2020.01)G06K9/62(2022.01)G06N3/08(2006.01)权利要求书3页说明书12页附图2页(54)发明名称基于人工智能的句子向量生成方法、装置、设备及介质(57)摘要本申请涉及人工智能技术领域,揭示了一种基于人工智能的句子向量生成方法、装置、设备及介质,其中方法包括:将所述目标文本输入句子向量生成模型进行句子向量生成得到目标句子向量;采用获取的多个训练样本对预设的双塔模型进行无监督训练,所述双塔模型包括正模型和负模型,多个所述训练样本是由多个正样本和多个负样本组成,同一个所述正样本中的原始文本和对比文本是相同的文本,同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本;将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。从而将模型训练的目标转移到句子向量的学习上,有利于训练出能获取到较为泛化的句子向量,提高了句子向量的准确性。CN114186548ACN114186548A权利要求书1/3页1.一种基于人工智能的句子向量生成方法,其特征在于,所述方法包括:获取目标文本;将所述目标文本输入句子向量生成模型进行句子向量生成;获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量;其中,所述句子向量生成模型通过如下步骤得到:采用获取的多个训练样本对预设的双塔模型进行无监督训练,其中,所述双塔模型包括正模型和负模型,多个所述训练样本是由多个正样本和多个负样本组成,同一个所述正样本中的原始文本和对比文本是相同的文本,同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本;将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。2.根据权利要求1所述的基于人工智能的句子向量生成方法,其特征在于,所述将所述目标文本输入句子向量生成模型进行句子向量生成,得到所述目标文本对应的目标句子向量的步骤之前,还包括:获取多个所述训练样本;将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成,得到第一句子向量;将所述训练样本的对比文本输入所述双塔模型的所述负模型进行句子向量生成,得到第二句子向量;采用所述双塔模型的相似度计算层,计算所述第一句子向量和所述第二句子向量之间的相似度,得到目标相似度;根据所述目标相似度和所述训练样本的样本标定值训练所述双塔模型,直至达到第一训练目标,将达到所述第一训练目标的所述双塔模型中的所述正模型作为所述句子向量生成模型。3.根据权利要求2所述的基于人工智能的句子向量生成方法,其特征在于,所述正模型和所述负模型均采用Bert模型,所述将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成,得到第一句子向量的步骤,包括:将所述训练样本的所述原始文本输入所述正模型,获取所述正模型针对标志位的输出向量作为所述第一句子向量;所述将所述训练样本的对比文本输入所述双塔模型的所述负模型进行句子向量生成,得到第二句子向量的步骤,包括:将所述训练样本的所述对比文本输入所述负模型,获取所述负模型针对所述标志位的输出向量作为所述第二句子向量。4.根据权利要求2所述的基于人工智能的句子向量生成方法,其特征在于,所述获取多个所述训练样本的步骤,包括:获取待提取文本集;从所述待提取文本集中获取一个文本作为待分析文本;将所述待分析文本作为所述待分析文本对应的所述正样本的所述原始文本和所述对比文本;2CN114186548A权利要求书2/3页将正样本标定值作为所述待分析文本对应的所述正样本的所述样本标定值,将所述正样本作为一个所述训练样本;从所述待提取文本集中的所述待分析文本以外的各个所述文本中获取一个所述文本作为所述待分析文本对应的负文本;将所述待分析文本作为所述待分析文本对应的所述负样本的所述原始文本;将所述负文本作为所述待分析文本对应的所述负样本的所述对比文本;将负样本标定值作为所述待分析文本对应的所述负样本的所述样本标定值,将所述负样本作为一个所述训练样本;重复执行所述从所述待提取文本集中的所述待分析文本以外的各个所述文本中获取一个所述文本作为所述待分析文本对应的负文本的步骤,直至迭代次数达到预设次数;重复执行所述从所述待提取文本集中获取一个文本作为待分析文本