一种对话策略模型训练、对话的方法和系统.pdf
冷霜****魔王
亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
一种对话策略模型训练、对话的方法和系统.pdf
本说明书实施例公开了一种对话策略模型训练、对话的方法和系统。其中,对话策略模型训练方法包括:基于多轮历史对话,确定第一训练数据以及第二训练数据;使用第一训练数据对对话策略模型进行第一阶段训练,使得对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得对话策略模型的第一模型参数;使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整第一模型参数,使得对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得对话策略模型的第二模型参数。
对话装置、对话系统和对话控制方法.pdf
本发明提供了一种对话装置、对话系统和对话控制方法。配置成与驾驶车辆的驾驶者进行对话的对话装置包括存储单元、专注度测量单元和对话单元。存储单元配置成保存偏好数据库,在该偏好数据库中,对话候选项和对话效果彼此相关联,其中对话候选项是与驾驶者的对话内容的候选项,并且对话效果表示使驾驶者的驾驶专注度得到提高的程度。专注度测量单元配置成测量驾驶者的驾驶专注度。对话单元配置成在由专注度测量单元测量的专注度下降至预定阈值以下时,基于偏好数据库中的对话效果选择对话候选项,随后利用所选择的对话候选项执行对话,基于执行对话前
对话系统和对话处理方法.pdf
一种用于车辆的对话系统可以包括:输入处理器,其被配置为接收车辆的包括驾驶员和至少一个乘客的乘员之间的对话,检测车辆操作信息,基于乘员之间的对话或车辆操作信息识别至少一个乘客,基于乘员之间的对话来生成估算当车辆到达停留点时车辆中的乘客数量的变化的乘客数量信息,并根据乘客数量信息来获取预话语消息;以及结果处理器,其被配置为根据预话语消息输出所述预话语。
一种对话的方法和系统.pdf
本说明书实施例公开了一种对话的方法和系统。所述对话的方法包括:获取对话上文;所述对话上文至少包括一句用户话语;基于所述对话上文确定对话当前状态;基于对话模型获取在所述对话当前状态基础上,一个或多个候选话术的收益分值;其中,所述对话模型为强化学习模型;基于收益分值从所述一个或多个候选话术中确定响应所述对话上文的目标话术。
对话策略优化的冷启动系统和方法.pdf
一种对话策略优化的冷启动系统和方法,包括:用户输入模块、对话状态跟踪模块、教师决策模块、学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验,根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。本发明能够显著提高对话策略在强化学习在线训练