预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113010653A(43)申请公布日2021.06.22(21)申请号202110279376.0G06N3/08(2006.01)(22)申请日2021.03.16G06N20/00(2019.01)(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人王福东王子豪金春祥李向阳彭爽杨明晖(74)专利代理机构成都七星天知识产权代理有限公司51253代理人袁春晓(51)Int.Cl.G06F16/332(2019.01)G06F40/30(2020.01)G06F40/211(2020.01)G06K9/62(2006.01)权利要求书2页说明书14页附图5页(54)发明名称一种对话策略模型训练、对话的方法和系统(57)摘要本说明书实施例公开了一种对话策略模型训练、对话的方法和系统。其中,对话策略模型训练方法包括:基于多轮历史对话,确定第一训练数据以及第二训练数据;使用第一训练数据对对话策略模型进行第一阶段训练,使得对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得对话策略模型的第一模型参数;使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整第一模型参数,使得对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得对话策略模型的第二模型参数。CN113010653ACN113010653A权利要求书1/2页1.一种对话策略模型训练方法,所述方法包括:基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;所述第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;使用所述第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;使用所述第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。2.根据权利要求1所述的方法,所述对话策略模型为多分类模型,其输入包括对话上文,输出包括对应于两个或以上对话策略的概率值。3.根据权利要求1所述的方法,所述第一训练数据包括第一训练正样本和第一训练负样本;其中,所述第一训练正样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略;所述第一训练负样本中的样本对话策略为非历史对话中对应于该样本中的样本对话上文的对话策略。4.根据权利要求3所述的方法,基于多轮历史对话,确定第一训练数据,包括:从多轮历史对话中提取客服话术,并将提取得到的客服话术聚类为一组或多组;基于聚类得到的一组或多组客服话术,确定一个或多个对话策略;将所述多轮历史对话中的客服话术替换为对应的对话策略;将客服话术替换为对话策略后的多轮历史对话按轮进行拆分,得到多个第一训练正样本。5.根据权利要求1所述的方法,第二训练样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略,所述第二训练样本还包括历史对话中对应于该样本中的样本对话上文的下一轮样本对话上文以及下一轮样本对话策略。6.根据权利要求5所述的方法,基于多轮历史对话,确定第二训练数据,包括:从多轮历史对话中提取客服话术,并将提取得到的客服话术聚类为一组或多组;基于聚类得到的一组或多组客服话术,确定一个或多个对话策略;将所述多轮历史对话中的客服话术替换为对应的对话策略;将客服话术替换为对话策略后的多轮历史对话按轮进行拆分;从拆分后的多轮历史对话中获取对话上文、其对应的对话策略、其对应的下一轮对话上文以及该下一轮对话上文对应的对话策略,分别作为第二训练样本中的样本对话上文、样本对话策略、下一轮样本对话上文以及下一轮样本对话策略。7.根据权利要求5所述的方法,所述使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数,包括:使用经过第一阶段训练后的对话策略模型处理第二训练样本中的样本对话上文,获得对应于该样本中的样本对话策略的第一概率值;使用经过第一阶段训练后的对话策略模型处理第二训练样本中的下一轮样本对话上2CN113010653A权利要求书2/2页文,获得对应于该样本中的下一轮样本对话策略的第二概率值;构造目标函数,所述目标函数反映目标奖励值与第二概率值的合值与第一概率值的差异;调整第一模型参数,以使