预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共38页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114168619A(43)申请公布日2022.03.11(21)申请号202210120493.7G06F16/22(2019.01)(22)申请日2022.02.09(71)申请人阿里巴巴达摩院(杭州)科技有限公司地址311121浙江省杭州市余杭区五常街道文一西路969号3幢5层516室(72)发明人惠彬原耿瑞莹黎槟华石翔李永彬孙健(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人谭镇(51)Int.Cl.G06F16/242(2019.01)G06F40/151(2020.01)G06K9/62(2022.01)权利要求书4页说明书21页附图12页(54)发明名称语言转换模型的训练方法及装置(57)摘要本申请实施例提供了一种语言转换模型的训练方法及装置,包括:获取数据表中的数据元素;生成用于查询数据元素的结构化查询语句样本和自然语句样本,自然语句样本中的词语与数据表中的数据元素之间具有映射关系;基于数据元素、自然语句样本、结构化查询语句样本和映射关系,对初始语言转换模型进行训练,得到目标语言转换模型。本申请中整个训练数据生成过程降低了人工参与度,提高了训练数据的生成效率和质量。另外,本申请可以基于数据表的数据元素与自然语句中的词语之间的显性的映射关系,进行语言转换模型的训练,从而使得训练过程中可以有效挖掘数据表知识与自然语句之间潜在的关联,有效提升语言转换模型的性能。CN114168619ACN114168619A权利要求书1/4页1.一种语言转换模型的训练方法,其特征在于,包括:获取数据表中的数据元素;生成用于查询所述数据元素的结构化查询语句样本和自然语句样本,所述自然语句样本中的词语与所述数据表中的数据元素之间具有映射关系;基于所述数据元素、所述自然语句样本、所述结构化查询语句样本和所述映射关系,对初始语言转换模型进行训练,得到目标语言转换模型,所述目标语言转换模型用于将自然语句转换为针对所述数据表的结构化查询语句。2.根据权利要求1所述的方法,其特征在于,所述生成用于查询所述数据元素的结构化查询语句样本和自然语句样本,包括:根据所述数据元素和预设的结构化查询语句生成规则,生成结构化查询语句样本;基于深度学习模型,将所述结构化查询语句样本转换为自然语句样本。3.根据权利要求1所述的方法,其特征在于,所述基于所述数据元素、所述自然语句样本、所述结构化查询语句样本和所述映射关系,对初始语言转换模型进行训练,得到目标语言转换模型,包括:基于所述映射关系,通过所述初始语言转换模型确定由所述数据元素、所述自然语句样本中的词语构成的组合与所述映射关系匹配的概率;根据所述概率符合预设条件的目标组合和预设的结构化查询语句生成规则,通过所述初始语言转换模型构建目标结构化查询语句;根据由所述目标结构化查询语句和所述结构化查询语句样本之间的损失值确定的损失函数,对所述初始语言转换模型进行训练,得到所述模板语言转换模型。4.根据权利要求3所述的方法,其特征在于,所述结构化查询语句生成规则包括:结构化查询语句中与所述数据元素对应的关键词;所述根据所述概率符合预设条件的目标组合和预设的结构化查询语句生成规则,通过所述初始语言转换模型构建目标结构化查询语句,包括:根据所述结构化查询语句生成规则,确定所述目标组合在结构化查询语句中对应的关键词;根据所述目标组合以及所述目标组合在结构化查询语句中对应的关键词,生成目标结构化查询语句。5.根据权利要求1所述的方法,其特征在于,所述基于所述数据元素、所述自然语句样本、所述结构化查询语句样本和所述映射关系,对初始语言转换模型进行训练,得到目标语言转换模型,包括:将所述自然语句样本中的第一词语替换为其他文本,得到第一自然语句样本,所述第一词语为所述自然语句样本中的任一词语;将所述第一自然语句样本和所述数据元素输入所述初始语言转换模型,得到所述初始语言转换模型基于所述映射关系输出的与所述第一词语对应的第二词语,以及目标结构化查询语句;根据由所述目标结构化查询语句和所述结构化查询语句样本之间的第一损失值,以及所述第一词语和所述第二词语之间的第二损失值确定的损失函数,对所述初始语言转换模型进行训练,得到所述模板语言转换模型。2CN114168619A权利要求书2/4页6.根据权利要求1所述的方法,其特征在于,所述基于所述数据元素、所述自然语句样本、所述结构化查询语句样本和所述映射关系,对初始语言转换模型进行训练,得到目标语言转换模型,包括:将多个所述数据元素中的第一数据元素替换为其他文本,所述第一数据元素为所述数据元素中的任一数据元素;将所述自然语句样本和执行了替换操作的多个数据元素输入所述初始语言转换模型,得到所述初始语