一种对话的方法和系统-豆柴文库

一种对话的方法和系统.pdf

2023-05-25

10金币

658KB

23页

阳炎****找我

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111160514A(43)申请公布日2020.05.15(21)申请号202010251489.5(22)申请日2020.04.01(71)申请人支付宝（杭州）信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人王子豪崔恒斌刘佳(74)专利代理机构成都七星天知识产权代理有限公司51253代理人袁春晓(51)Int.Cl.G06N3/00(2006.01)权利要求书3页说明书14页附图5页(54)发明名称一种对话的方法和系统(57)摘要本说明书实施例公开了一种对话的方法和系统。所述对话的方法包括：获取对话上文；所述对话上文至少包括一句用户话语；基于所述对话上文确定对话当前状态；基于对话模型获取在所述对话当前状态基础上，一个或多个候选话术的收益分值；其中，所述对话模型为强化学习模型；基于收益分值从所述一个或多个候选话术中确定响应所述对话上文的目标话术。CN111160514ACN111160514A权利要求书1/3页1.一种对话的方法，包括：获取对话上文；所述对话上文至少包括一句用户话语；基于所述对话上文确定对话当前状态；基于对话模型获取在所述对话当前状态基础上，一个或多个候选话术的收益分值；其中，所述对话模型为强化学习模型；基于收益分值从所述一个或多个候选话术中确定响应所述对话上文的目标话术。2.如权利要求1所述的方法，所述收益分值正相关于相应的候选话术使得业务目标实现的概率。3.如权利要求1所述的方法，所述对话模型通过以下方式获得：获取多轮历史对话；从所述多轮历史对话中提取多组训练数据，所述多组训练数据中的一组至少包括：样本对话当前状态、响应话术、样本对话下一状态和与所述响应话术对应的奖励值；基于多组所述训练数据迭代更新强化学习模型的参数，使得训练得到的对话模型能够基于任一对话当前状态确定候选话术的收益分值。4.如权利要求3所述的方法，与所述响应话术对应的奖励值反映以下一种或多种信息：响应话术与样本对话当前状态的相关度、业务目标的实现概率、回应于响应话术的历史用户话语的情绪分值、回应于响应话术的历史用户话语的意图类别、以及与所述响应话术相关的对话参与度。5.一种对话的系统，包括：对话数据获取模块，用于获取对话上文；所述对话上文至少包括一句用户话语；对话当前状态确定模块，用于基于所述对话上文确定对话当前状态；收益分值确定模块，用于基于对话模型获取在所述对话当前状态基础上，一个或多个候选话术的收益分值；其中，所述对话模型为强化学习模型；目标话术确定模块，用于基于收益分值从所述一个或多个候选话术中确定响应所述对话上文的目标话术。6.如权利要求5所述的系统，所述收益分值正相关于相应的候选话术使得业务目标实现的概率。7.如权利要求5所述的系统，所述系统还包括训练模块，所述训练模块包括：对话数据获取单元，用于获取多轮历史对话；训练数据提取单元，用于从所述多轮历史对话中提取多组训练数据，所述多组训练数据中的一组至少包括：样本对话当前状态、响应话术、样本对话下一状态和与所述响应话术对应的奖励值；模型参数更新单元，用于基于多组所述训练数据迭代更新强化学习模型的参数，使得训练得到的对话模型能够基于任一对话当前状态确定候选话术的收益分值。8.如权利要求7所述的系统，与所述响应话术对应的奖励值反映以下一种或多种信息：响应话术与样本对话当前状态的相关度、业务目标的实现概率、回应于响应话术的历史用户话语的情绪分值、回应于响应话术的历史用户话语的意图类别、以及与所述响应话术相关的对话参与度。9.一种对话的装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介2CN111160514A权利要求书2/3页质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~4任一项所述方法。10.一种训练对话模型的方法，包括：获取多轮历史对话；从所述多轮历史对话中提取多组训练数据，所述多组训练数据中的一组至少包括样本对话当前状态、响应话术、样本对话下一状态和与所述响应话术对应的奖励值；基于多组所述训练数据迭代更新强化学习模型的参数，使得训练得到的对话模型能够基于任一对话当前状态确定候选话术的收益分值。11.如权利要求10所述的方法，所述多组训练数据中的一组还包括：对话结束标识，用以标识对应的训练数据是否为所属一轮历史对话中的最后一次对话。12.如权利要求10所述的方法，与所述响应话术对应的奖励值反映以下一种或多种信息：响应话术与样本对话当前状态的相关度、业务目标的实现概率、回应于响应话术的历史用户话语的情绪分值、回应于响应话术的历史用户话语的意图类别、以及与所述响应话术相关的对话参与度。13.如权利要求12所述的方法

相关资料

一种对话的方法和系统.pdf

本说明书实施例公开了一种对话的方法和系统。所述对话的方法包括：获取对话上文；所述对话上文至少包括一句用户话语；基于所述对话上文确定对话当前状态；基于对话模型获取在所述对话当前状态基础上，一个或多个候选话术的收益分值；其中，所述对话模型为强化学习模型；基于收益分值从所述一个或多个候选话术中确定响应所述对话上文的目标话术。

2023-05-25

658KB

一种对话策略模型训练、对话的方法和系统.pdf

本说明书实施例公开了一种对话策略模型训练、对话的方法和系统。其中，对话策略模型训练方法包括：基于多轮历史对话，确定第一训练数据以及第二训练数据；使用第一训练数据对对话策略模型进行第一阶段训练，使得对话策略模型能够基于对话上文输出与之对应的对话策略，进而获得对话策略模型的第一模型参数；使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练，调整第一模型参数，使得对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配，进而获得对话策略模型的第二模型参数。

2023-05-25

833KB

一种对话处理方法和系统.pdf

本说明书实施例提供了一种对话处理方法和系统，包括：获取来自对话窗口的卡片链接，卡片链接指向与目标对象相关的页面，且具有标记信息以及被显示的图像和/或文本，所述标记信息包括卡片标签以及描述信息；基于所述标记信息，从知识库中获取一个或多个目标知识点；将所述一个或多个目标知识点通过所述对话窗口反馈给用户。

2023-05-25

553KB

一种对话控制方法和系统.pdf

本发明的实施例提供了一种对话控制方法和系统，利用自然语言理解技术为语音交互系统提供了一种对话控制，根据对用户输入的意图理解和情感分析，选择单轮对话脚本或多轮话题脚本，根据交互发生的条件，进行换话题、问句、喜好等判断，具有完整的流程，实现对话的自然流畅，符合人的心理特征。同时系统将获得的数据利用大数据进行建模，追踪用户的偏好话题及每个话题的实时热度，用以进行话题的智能推荐。

2023-08-28

525KB

对话系统和对话处理方法.pdf

一种用于车辆的对话系统可以包括：输入处理器，其被配置为接收车辆的包括驾驶员和至少一个乘客的乘员之间的对话，检测车辆操作信息，基于乘员之间的对话或车辆操作信息识别至少一个乘客，基于乘员之间的对话来生成估算当车辆到达停留点时车辆中的乘客数量的变化的乘客数量信息，并根据乘客数量信息来获取预话语消息；以及结果处理器，其被配置为根据预话语消息输出所述预话语。

2023-11-14

8.6MB