预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115935182A(43)申请公布日2023.04.07(21)申请号202211458128.3(22)申请日2022.11.21(71)申请人杭州网易智企科技有限公司地址310052浙江省杭州市滨江区长河街道网商路399号3幢408室(72)发明人马春平冯旻伟尹竞成阮良(74)专利代理机构北京同立钧成知识产权代理有限公司11205专利代理师马明明黄健(51)Int.Cl.G06F18/214(2023.01)G06F16/332(2019.01)G06F16/33(2019.01)G06F40/205(2020.01)权利要求书2页说明书18页附图7页(54)发明名称模型训练方法、多轮对话中的话题分割方法、介质及装置(57)摘要本公开的实施方式提供了一种模型训练方法、多轮对话中的话题分割方法、介质及装置,其中,模型训练方法包括:从历史会话集中筛选出候选会话集,其中,候选会话集中每两个候选会话之间的语义相似度小于预设阈值,进而,生成针对上述候选会话的话题标签,并基于该话题标签拼接上述候选会话集以构成训练数据,基于该训练数据对目标模型进行训练,该目标模型用于对多轮会话的会话内容进行话题分割,从而,得到对话中更加细粒度的信息,如得到会话中涉及的一个或多个话题,从而,根据得到的一个或多个话题更精确地了解用户的需求,基于这些需求为用户提供更准确的数据推荐,提高用户体验。此外,本公开的实施方式提供了一种计算设备。CN115935182ACN115935182A权利要求书1/2页1.一种模型训练方法,其特征在于,包括:从历史会话集中筛选出候选会话集,其中,所述候选会话集中每两个候选会话之间的语义相似度小于预设阈值;生成针对所述候选会话的话题标签,并基于所述话题标签拼接所述候选会话集以构成训练数据;基于所述训练数据对目标模型进行训练,所述目标模型用于对多轮会话的会话内容进行话题分割。2.根据权利要求1所述的模型训练方法,其特征在于,所述历史会话集包括多个历史会话,每一历史会话是基于单个物品的问题,以及与所述问题对应的答复形成的会话。3.根据权利要求2所述的模型训练方法,其特征在于,在所述从历史会话集中筛选出候选会话集之前,还包括:对所述历史会话集进行预处理,所述预处理包括过滤预设语句和/或过滤会话长度大于预设长度的会话;所述从历史会话集中筛选出候选会话集,包括:从预处理后的历史会话集中筛选出所述候选会话集。4.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,所述从历史会话集中筛选出候选会话集,包括:计算所述历史会话集中历史会话之间的余弦相似度;基于所述余弦相似度,确定所述历史会话集中历史会话之间的语义相似度;根据所述历史会话集中历史会话之间的语义相似度,从所述历史会话集中筛选出候选会话集。5.根据权利要求4所述的模型训练方法,其特征在于,所述根据所述历史会话集中历史会话之间的语义相似度,从所述历史会话集中筛选出候选会话集,包括:从所述历史会话集中挑选两个历史会话,并确定所述两个历史会话之间的语义相似度是否小于所述预设阈值;若所述两个历史会话之间的语义相似度小于所述预设阈值,则从所述历史会话集除所述两个历史会话外的剩余会话中,继续挑选与所述两个历史会话的语义相似度小于所述预设阈值的历史会话,直至从所述历史会话集中挑选的历史会话的数目达到第一预设数目,停止挑选。6.一种多轮对话中的话题分割方法,其特征在于,包括:将多轮对话中的会话内容输入至目标模型,由所述目标模型进行处理以获得所述会话内容对应的话题分割结果,其中,所述目标模型是根据权利要求1至5任一项所述的模型训练方法训练获得的。7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至5任一项所述的模型训练方法,和/或,实现如权利要求6所述的多轮对话中的话题分割方法。8.一种模型训练装置,其特征在于,包括:筛选模块,用于从历史会话集中筛选出候选会话集,其中,所述候选会话集中每两个候选会话之间的语义相似度小于预设阈值;2CN115935182A权利要求书2/2页生成模块,用于生成针对所述候选会话的话题标签,并基于所述话题标签拼接所述候选会话集以构成训练数据;训练模块,用于基于所述训练数据对目标模型进行训练,所述目标模型用于对多轮会话的会话内容进行话题分割。9.一种多轮对话中的话题分割装置,其特征在于,包括:分割模块,用于将多轮对话中的会话内容输入至目标模型,由所述目标模型进行处理以获得所述会话内容对应的话题分割结果,其中,所述目标模型是根据权利要求1至5任一项所述的模型训练方法训练获得的。10.一种计算设备,包括:至少一个处理器和存储器;