自助对话方法、装置、设备及存储介质-豆柴文库

自助对话方法、装置、设备及存储介质.pdf

2023-07-25

10金币

1MB

23页

一只****爱敏

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113821615A(43)申请公布日2021.12.21(21)申请号202110864729.3(22)申请日2021.07.29(71)申请人腾讯科技（深圳）有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人王慧敏张云燕杨奕凡(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人张所明(51)Int.Cl.G06F16/332(2019.01)G06F40/35(2020.01)G06N3/08(2006.01)权利要求书3页说明书15页附图4页(54)发明名称自助对话方法、装置、设备及存储介质(57)摘要本申请公开了一种自助对话方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取自助对话代理的对话策略数据，对话策略数据包括至少一组环境状态和对话动作；通过自助对话代理，基于环境的目标状态，得到与目标状态对应的目标动作；基于目标状态和目标动作与对话策略数据的一致性，以及目标动作的环境奖励，得到代理对话奖励；基于代理对话奖励，调整自助对话代理的参数，得到完成训练的自助对话代理，完成训练的自助对话代理用于进行自助对话。本申请实施例在一定程度上缓解了自助对话代理在强化学习过程中的稀疏奖励问题，提升了自助对话代理的收敛速度。CN113821615ACN113821615A权利要求书1/3页1.一种自助对话方法，其特征在于，所述方法包括：获取自助对话代理的对话策略数据，所述对话策略数据包括至少一组环境状态和对话动作；通过所述自助对话代理，基于环境的目标状态，得到与所述目标状态对应的目标动作；基于所述目标状态和所述目标动作与所述对话策略数据的一致性，以及所述目标动作的环境奖励，得到代理对话奖励，所述代理对话奖励用于指示所述自助对话代理训练的目标；基于所述代理对话奖励，调整所述自助对话代理的参数，得到完成训练的自助对话代理，所述完成训练的自助对话代理用于进行自助对话。2.根据权利要求1所述的方法，其特征在于，所述基于所述目标状态和所述目标动作与所述对话策略数据的一致性，以及所述目标动作的环境奖励，得到代理对话奖励，包括：从所述对话策略数据中，确定与所述目标状态和所述目标动作一致的目标环境状态和目标对话动作；基于所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度，确定代理中间奖励；所述代理中间奖励用于指示所述目标状态和所述目标动作与所述对话策略数据的一致性；获取代理稀疏奖励，所述代理稀疏奖励用于指示所述目标动作的环境奖励；基于所述代理中间奖励和所述代理稀疏奖励，确定所述代理对话奖励。3.根据权利要求2所述的方法，其特征在于，所述从所述对话策略数据中，确定与所述目标状态和所述目标动作一致的目标环境状态和目标对话动作，包括：从所述对话策略数据包括的对话动作中，确定与所述目标动作一致的目标对话动作；将所述对话策略数据包括的环境状态中，与所述目标对话动作对应的环境状态，确定为目标环境状态。4.根据权利要求2所述的方法，其特征在于，所述基于所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度，确定代理中间奖励之前，还包括：基于所述目标状态和所述目标环境状态，确定状态向量差，所述状态向量差用于指示所述目标状态和所述目标环境状态之间的偏差；基于所述状态向量差和所述状态向量差的转置，确定所述目标状态和所述目标动作与所述目标环境状态和所述目标对话动作之间的相似度。5.根据权利要求1所述的方法，其特征在于，所述基于所述代理对话奖励，调整所述自助对话代理的参数，得到完成训练的自助对话代理，包括：基于所述代理对话奖励，确定代理对话价值，所述代理对话价值用于指示所述目标动作在所述自助对话代理的当前对话过程和未来对话过程中的价值；基于所述代理对话价值，确定代理对话损失，所述代理对话损失用于指示所述自助对话代理的准确性；采用随机梯度下降方法，基于所述代理对话损失，调整所述自助对话代理的参数，得到所述完成训练的自助对话代理。6.根据权利要求1所述的方法，其特征在于，所述获取自助对话代理的对话策略数据之后，还包括：2CN113821615A权利要求书2/3页通过所述自助对话代理，基于所述对话策略数据，得到行为克隆损失，所述行为克隆损失是指采用行为克隆的方式对所述自助对话代理进行预训练得到的损失；基于所述行为克隆损失，调整所述自助对话代理的参数，得到完成预训练的自助对话代理；其中，所述完成预训练的自助对话代理用于执行通过所述自助对话代理，基于环境的目标状态，得到与所述目标状态对应的目标动作的步骤。7.根据权利要求6所述的方法，其特征在于，所述通过所述自助对话代理，基于所述对话策略数据

相关资料

自助对话方法、装置、设备及存储介质.pdf

本申请公开了一种自助对话方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取自助对话代理的对话策略数据，对话策略数据包括至少一组环境状态和对话动作；通过自助对话代理，基于环境的目标状态，得到与目标状态对应的目标动作；基于目标状态和目标动作与对话策略数据的一致性，以及目标动作的环境奖励，得到代理对话奖励；基于代理对话奖励，调整自助对话代理的参数，得到完成训练的自助对话代理，完成训练的自助对话代理用于进行自助对话。本申请实施例在一定程度上缓解了自助对话代理在强化学习过程中的稀疏奖励问题，提升了

2023-07-25

1MB

计时方法、装置、存储介质及自助设备.pdf

本发明实施例提供了一种计时方法、装置、存储介质及自助设备，涉及自助设备技术领域。方法应用于一自助设备，所述方法包括：在确定达到设定计时开始条件时，获取所述自助设备中系统计时器的第一计时时刻后，在确定达到设定计时结束条件时，获取所述自助设备中系统计时器的第二计时时刻，再获取在所述第一计时时刻与所述第二计时时刻之间进行系统时钟校正的校正量总和，然后基于所述第一计时时刻、第二计时时刻及所述校正量总和，获得计时结果。计时结果更准确，保证了自助设备上业务的正常运行和安全运行。

2023-08-08

556KB

对话处理方法、装置、设备及存储介质.pdf

本公开涉及一种对话处理方法、装置、设备及存储介质。本公开通过目标类别建立多个预设类别中除所述目标类别之外的其他预设类别中不同预设类别的关键词之间的语义关系,从所述目标类别对应的一个或多个聚类簇中选取基准聚类簇,以及从所述其他预设类别对应的多个聚类簇中确定出一个或多个目标聚类簇,使得所述目标聚类簇和所述基准聚类簇的相似度满足预设条件。进一步,将所述一个或多个目标聚类簇中的关键词融合到所述基准聚类簇中,使得不同预设类别的关键词通过目标类别这种数据结构连接在一起,保证了连接在一起的关键词之间存在语义关系,避免将

2023-04-20

870KB

对话页面切换方法、装置、设备及存储介质.pdf

本公开提供了一种对话页面切换方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及无人驾驶、车联网、智能座舱、智能交通等技术领域。具体实现方案为:显示第一页面和第二页面,所述第二页面为当前对话页面,所述第一页面为所述第二页面的上一轮对话页面,所述第二页面覆盖所述第一页面的部分或者全部区域;响应于针对所述第二页面的切换指令,将所述当前对话页面切换为所述第一页面。能够提高多轮对话页面切换的灵活性。

2023-05-24

1.9MB

自助轮椅的归还处理方法、装置、设备及存储介质.pdf

本发明涉及物联网技术领域，公开了一种自助轮椅的归还处理方法、装置、设备及存储介质，用于提高自助轮椅归还的智能化。所述方法包括：根据位置信息判断目标自助轮椅是否位于轮椅归还基站的归还区域；若目标自助轮椅位于归还区域，则查询轮椅使用时长和轮椅压力数据；根据轮椅压力数据判断目标自助轮椅是否处于空置状态，得到判断结果；若判断结果为目标自助轮椅处于空置状态，则根据轮椅使用时长生成待缴费数据，并将待缴费数据发送至用户终端，并获取待缴费数据对应的缴费结果；若缴费结果为已缴费，则控制目标自助轮椅收缩两侧扶手，并判断两侧扶

2023-07-22

671KB