预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113240485A(43)申请公布日2021.08.10(21)申请号202110506426.4(22)申请日2021.05.10(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人王艳花刘朋樟(74)专利代理机构北京同立钧成知识产权代理有限公司11205代理人杨俊辉黄健(51)Int.Cl.G06Q30/06(2012.01)G06F40/284(2020.01)G06F40/289(2020.01)G06N3/04(2006.01)权利要求书2页说明书13页附图4页(54)发明名称文本生成模型的训练方法、文本生成方法和装置(57)摘要本申请提供一种文本生成模型的训练方法、文本生成方法和装置,其中,该训练方法包括:根据预设汉语语言模型,从目标文本中提取得到候选卖点,根据候选卖点,构建卖点候选集,从目标文本中选取得到目标卖点短语,根据卖点候选集和目标卖点短语,对预设文本生成模型进行训练。该技术方案中,通过预先使用预设汉语语言模型对目标文本进行短语提取,得到候选卖点候选集,并与目标卖点短语构成训练数据对,对预设文本生成模型进行训练,不需要使用大量的训练数据,并且训练得到的预设文本生成模型不会出现幻觉,具有较好的输出效果。CN113240485ACN113240485A权利要求书1/2页1.一种文本生成模型的训练方法,其特征在于,包括:根据预设汉语语言模型,从目标文本中提取得到候选卖点,所述预设汉语语言模型为利用预设卖点知识库数据训练得到的,所述候选卖点用于描述物品的第一特征;根据所述候选卖点,构建卖点候选集;从所述目标文本中选取得到目标卖点短语;根据所述卖点候选集和目标卖点短语,对预设文本生成模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据预设汉语语言模型,从目标文本中提取得到候选卖点,包括:对所述目标文本进行分句,得到候选短语;利用所述预设汉语语言模型,对所述候选短语进行打分,得到所述候选短语的得分;根据所述候选短语的得分和预设分数阈值,从所述候选短语中获取候选卖点。3.根据权利要求2所述的方法,其特征在于,所述利用所述预设汉语语言模型,对所述候选短语进行打分,得到所述候选短语的得分,包括:构建所述候选短语的一元分词、二元分词和三元分词;利用所述预设汉语语言模型,计算得到所述一元分词、二元分词和三元分词的得分;根据所述一元分词、二元分词和三元分词的得分,确定所述候选短语的得分。4.根据权利要求1所述的方法,其特征在于,所述从所述目标文本中选取得到目标卖点短语,包括:利用预设模型对所述目标文本进行文本分类,确定所述目标文本中的短语是否包含卖点词,所述卖点词为用于描述物品特征的词汇;若所述短语包含卖点词,则将所述短语作为所述目标卖点短语。5.根据权利要求1所述的方法,其特征在于,所述根据预设汉语语言模型,从目标文本中提取得到候选卖点之前,还包括:获取预设卖点知识库数据,所述预设卖点知识库数据中包括卖点词;根据预设卖点知识库数据,训练得到所述预设汉语语言模型。6.根据权利要求5所述的方法,其特征在于,所述根据预设卖点知识库数据,训练得到所述预设汉语语言模型,包括:对所述预设卖点知识库数据进行分词、停用词处理和符号过滤,得到训练数据;根据所述训练数据,训练得到所述预设汉语语言模型。7.根据权利要求1所述的方法,其特征在于,所述根据所述候选卖点,构建卖点候选集,包括:获取所述目标文本的标注卖点,所述标注卖点用于描述物品的第二特征,所述第一特征与所述第二特征不相同;根据所述标注卖点和所述候选卖点,构建得到卖点候选集。8.一种文本生成方法,其特征在于,包括:获取待提取文本,利用预设文本生成模型,从所述待提取文本中提取得到卖点短语,所述预设文本生成模型为利用卖点候选集和目标卖点短语训练得到的;计算各条卖点短语之间的相似度;根据所述相似度,对各条卖点短语进行合并,得到目标短语。2CN113240485A权利要求书2/2页9.根据权利要求8所述的方法,其特征在于,所述利用所述预设文本生成模型,从所述待提取文本中提取得到卖点短语,包括:对所述待提取文本进行分句,得到待提取短语;确定所述待提取短语中是否包含有卖点词,所述卖点词为用于描述物品特征的词;若所述待提取短语中包含有卖点词,则利用所述预设文本生成模型,从所述待提取短语中提取得到卖点短语;若所述待提取短语中不包含有卖点词,则将所述待提取短语筛除。10.根据权利要求9所述的方法,其特征在于,所述若所述待提取短语中包含有卖点词,则利用所述预设文本生成模型,从所述待提取短语中提取得到卖点短语,