预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113935315A(43)申请公布日2022.01.14(21)申请号202111250467.8(22)申请日2021.10.26(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人陈浩谯轶轩(74)专利代理机构深圳市明日今典知识产权代理事务所(普通合伙)44343代理人王杰辉(51)Int.Cl.G06F40/211(2020.01)G06F40/284(2020.01)G06N3/02(2006.01)G06N3/08(2006.01)权利要求书2页说明书11页附图2页(54)发明名称句子向量生成方法、装置、设备及存储介质(57)摘要本申请涉及人工智能技术领域,揭示了一种句子向量生成方法、装置、设备及存储介质,其中方法包括:获取目标文本数据;将所述目标文本数据输入句子向量生成模型进行句子向量生成,得到所述目标文本数据对应的目标句子向量,其中,所述句子向量生成模型是采用多个训练样本对神经网络训练得到的模型,每个所述训练样本包括:语料片段和语料片段定义。从而实现基于语料片段和语料片段定义对神经网络训练进行训练得到句子向量生成模型,降低了训练难度,避免了采用无监督学习的方法或基于对比学习的方法构建句子向量。CN113935315ACN113935315A权利要求书1/2页1.一种句子向量生成方法,其特征在于,所述方法包括:获取目标文本数据;将所述目标文本数据输入句子向量生成模型进行句子向量生成,得到所述目标文本数据对应的目标句子向量,其中,所述句子向量生成模型是采用多个训练样本对神经网络训练得到的模型,每个所述训练样本包括:语料片段和语料片段定义。2.根据权利要求1所述的句子向量生成方法,其特征在于,所述将所述目标文本数据输入句子向量生成模型进行句子向量生成,得到所述目标文本数据对应的目标句子向量的步骤之前,还包括:获取多个所述训练样本;获取预设批次数量的所述训练样本作为训练样本集;根据所述训练样本集中的每个所述语料片段进行词向量生成,得到第一词向量;采用初始模型,对所述训练样本集中的每个所述语料片段定义进行句子向量生成,得到第一句子向量,其中,所述初始模型是基于Bert模型或XLNET模型得到的模型;根据各个所述第一词向量和各个所述第一句子向量进行损失值计算,得到第一损失值,根据所述第一损失值更新所述初始模型的参数,将更新后的所述初始模型用于下一次计算所述第一句子向量;重复执行所述获取预设批次数量的所述训练样本作为训练样本集的步骤,直至达到第一训练目标;将达到所述第一训练目标的所述初始模型作为所述句子向量生成模型。3.根据权利要求2所述的句子向量生成方法,其特征在于,所述获取多个所述训练样本的步骤,包括:获取词典数据,所述词典数据包括:文本段和文本段定义,文本段包括:单汉字、词语、成语中的任一种,所述文本段定义是对所述文本段的解释说明;从所述词典数据中获取任一个文本段作为目标文本段;根据所述目标文本段和所述目标文本段对应的所述文本段定义生成所述训练样本,其中,将所述目标文本段作为所述训练样本的所述语料片段,将所述目标文本段对应的所述文本段定义作为所述训练样本的所述语料片段定义;重复执行所述从所述词典数据中获取任一个文本段作为目标文本段的步骤,直至完成所述词典数据中的所述文本段的获取或者获取到样本生成结束信号。4.根据权利要求2所述的句子向量生成方法,其特征在于,所述根据所述训练样本集中的每个所述语料片段进行词向量生成,得到第一词向量的步骤,包括:对所述训练样本集中的每个所述语料片段进行分词处理,得到语料片段短语集;采用预设词向量模型,对每个所述语料片段短语集中的各个短语进行词向量生成,得到短语词向量集;对每个所述短语词向量集进行平均值计算,得到所述第一词向量。5.根据权利要求2所述的句子向量生成方法,其特征在于,所述采用初始模型,对所述训练样本集中的每个所述语料片段定义进行句子向量生成,得到第一句子向量的步骤,包括:对所述训练样本集中的每个所述语料片段定义进行分词处理,得到定义短语集;2CN113935315A权利要求书2/2页将每个所述定义短语集输入所述初始模型进行句子向量生成,得到所述第一句子向量。6.根据权利要求2所述的句子向量生成方法,其特征在于,所述根据各个所述第一词向量和各个所述第一句子向量进行损失值计算,得到第一损失值的步骤,包括:获取任一个所述第一词向量作为目标词向量;将所述目标词向量和所述目标词向量对应的所述第一句子向量输入预设损失函数进行损失值计算,得到待处理损失值,其中,所述预设损失函数采用相对熵损失函数;重复执行所述获取任一个所述第一词向量