一种对话策略模型训练、对话的方法和系统-豆柴文库

一种对话策略模型训练、对话的方法和系统.pdf

2023-05-25

10金币

833KB

22页

冷霜****魔王

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113010653A(43)申请公布日2021.06.22(21)申请号202110279376.0G06N3/08(2006.01)(22)申请日2021.03.16G06N20/00(2019.01)(71)申请人支付宝（杭州）信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人王福东王子豪金春祥李向阳彭爽杨明晖(74)专利代理机构成都七星天知识产权代理有限公司51253代理人袁春晓(51)Int.Cl.G06F16/332(2019.01)G06F40/30(2020.01)G06F40/211(2020.01)G06K9/62(2006.01)权利要求书2页说明书14页附图5页(54)发明名称一种对话策略模型训练、对话的方法和系统(57)摘要本说明书实施例公开了一种对话策略模型训练、对话的方法和系统。其中，对话策略模型训练方法包括：基于多轮历史对话，确定第一训练数据以及第二训练数据；使用第一训练数据对对话策略模型进行第一阶段训练，使得对话策略模型能够基于对话上文输出与之对应的对话策略，进而获得对话策略模型的第一模型参数；使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练，调整第一模型参数，使得对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配，进而获得对话策略模型的第二模型参数。CN113010653ACN113010653A权利要求书1/2页1.一种对话策略模型训练方法，所述方法包括：基于多轮历史对话，确定第一训练数据以及第二训练数据；其中，所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略；所述第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值；使用所述第一训练数据对对话策略模型进行第一阶段训练，使得所述对话策略模型能够基于对话上文输出与之对应的对话策略，进而获得所述对话策略模型的第一模型参数；使用所述第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练，调整所述第一模型参数，使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配，进而获得所述对话策略模型的第二模型参数。2.根据权利要求1所述的方法，所述对话策略模型为多分类模型，其输入包括对话上文，输出包括对应于两个或以上对话策略的概率值。3.根据权利要求1所述的方法，所述第一训练数据包括第一训练正样本和第一训练负样本；其中，所述第一训练正样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略；所述第一训练负样本中的样本对话策略为非历史对话中对应于该样本中的样本对话上文的对话策略。4.根据权利要求3所述的方法，基于多轮历史对话，确定第一训练数据，包括：从多轮历史对话中提取客服话术，并将提取得到的客服话术聚类为一组或多组；基于聚类得到的一组或多组客服话术，确定一个或多个对话策略；将所述多轮历史对话中的客服话术替换为对应的对话策略；将客服话术替换为对话策略后的多轮历史对话按轮进行拆分，得到多个第一训练正样本。5.根据权利要求1所述的方法，第二训练样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略，所述第二训练样本还包括历史对话中对应于该样本中的样本对话上文的下一轮样本对话上文以及下一轮样本对话策略。6.根据权利要求5所述的方法，基于多轮历史对话，确定第二训练数据，包括：从多轮历史对话中提取客服话术，并将提取得到的客服话术聚类为一组或多组；基于聚类得到的一组或多组客服话术，确定一个或多个对话策略；将所述多轮历史对话中的客服话术替换为对应的对话策略；将客服话术替换为对话策略后的多轮历史对话按轮进行拆分；从拆分后的多轮历史对话中获取对话上文、其对应的对话策略、其对应的下一轮对话上文以及该下一轮对话上文对应的对话策略，分别作为第二训练样本中的样本对话上文、样本对话策略、下一轮样本对话上文以及下一轮样本对话策略。7.根据权利要求5所述的方法，所述使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练，调整所述第一模型参数，使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配，进而获得所述对话策略模型的第二模型参数，包括：使用经过第一阶段训练后的对话策略模型处理第二训练样本中的样本对话上文，获得对应于该样本中的样本对话策略的第一概率值；使用经过第一阶段训练后的对话策略模型处理第二训练样本中的下一轮样本对话上2CN113010653A权利要求书2/2页文，获得对应于该样本中的下一轮样本对话策略的第二概率值；构造目标函数，所述目标函数反映目标奖励值与第二概率值的合值与第一概率值的差异；调整第一模型参数，以使

相关资料

一种对话策略模型训练、对话的方法和系统.pdf

本说明书实施例公开了一种对话策略模型训练、对话的方法和系统。其中，对话策略模型训练方法包括：基于多轮历史对话，确定第一训练数据以及第二训练数据；使用第一训练数据对对话策略模型进行第一阶段训练，使得对话策略模型能够基于对话上文输出与之对应的对话策略，进而获得对话策略模型的第一模型参数；使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练，调整第一模型参数，使得对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配，进而获得对话策略模型的第二模型参数。

2023-05-25

833KB

对话装置、对话系统和对话控制方法.pdf

本发明提供了一种对话装置、对话系统和对话控制方法。配置成与驾驶车辆的驾驶者进行对话的对话装置包括存储单元、专注度测量单元和对话单元。存储单元配置成保存偏好数据库，在该偏好数据库中，对话候选项和对话效果彼此相关联，其中对话候选项是与驾驶者的对话内容的候选项，并且对话效果表示使驾驶者的驾驶专注度得到提高的程度。专注度测量单元配置成测量驾驶者的驾驶专注度。对话单元配置成在由专注度测量单元测量的专注度下降至预定阈值以下时，基于偏好数据库中的对话效果选择对话候选项，随后利用所选择的对话候选项执行对话，基于执行对话前

2024-01-03

9.9MB

对话系统和对话处理方法.pdf

一种用于车辆的对话系统可以包括：输入处理器，其被配置为接收车辆的包括驾驶员和至少一个乘客的乘员之间的对话，检测车辆操作信息，基于乘员之间的对话或车辆操作信息识别至少一个乘客，基于乘员之间的对话来生成估算当车辆到达停留点时车辆中的乘客数量的变化的乘客数量信息，并根据乘客数量信息来获取预话语消息；以及结果处理器，其被配置为根据预话语消息输出所述预话语。

2023-11-14

8.6MB

一种对话的方法和系统.pdf

本说明书实施例公开了一种对话的方法和系统。所述对话的方法包括：获取对话上文；所述对话上文至少包括一句用户话语；基于所述对话上文确定对话当前状态；基于对话模型获取在所述对话当前状态基础上，一个或多个候选话术的收益分值；其中，所述对话模型为强化学习模型；基于收益分值从所述一个或多个候选话术中确定响应所述对话上文的目标话术。

2023-05-25

658KB

对话策略优化的冷启动系统和方法.pdf

一种对话策略优化的冷启动系统和方法，包括：用户输入模块、对话状态跟踪模块、教师决策模块、学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验，根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。本发明能够显著提高对话策略在强化学习在线训练

2023-09-01

414KB