预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107342078A(43)申请公布日2017.11.10(21)申请号201710483731.X(22)申请日2017.06.23(71)申请人上海交通大学地址200240上海市闵行区东川路800号申请人苏州思必驰信息科技有限公司(72)发明人俞凯陈露周翔常成杨闰哲(74)专利代理机构上海交达专利事务所31201代理人王毓理王锡麟(51)Int.Cl.G10L15/06(2013.01)G10L15/183(2013.01)G10L15/16(2006.01)权利要求书3页说明书4页附图1页(54)发明名称对话策略优化的冷启动系统和方法(57)摘要一种对话策略优化的冷启动系统和方法,包括:用户输入模块、对话状态跟踪模块、教师决策模块、学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验(transition)存储到经验池中并采样固定数量的经验,根据深度Q网络(DQN)算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报(Reward)并输出至策略训练模块的奖励函数模块。本发明能够显著提高对话策略在强化学习在线训练初期的性能;提高对话策略的学习速度,即减少其达到一定性能所用的对话数量。CN107342078ACN107342078A权利要求书1/3页1.一种对话策略优化的冷启动系统,其特征在于,包括:用于接收用户输入的用户输入模块、用于解析当前用户输入的语义并根据对话上下文进行对话状态跟踪,即理解用户的意图的对话状态跟踪模块、根据设计好的基于规则的对话策略决策出在当前状态下的回复动作的教师决策模块、根据策略网络决策出当前状态的回复动作并估计当前决策的确定度的学生决策模块、从教师决策模块和学生决策模块产生的回复动作中随机选择一个最终的回复动作的动作选择模块、将最终的回复动作转换成更自然的表达并展现给用户的输出模块、将对话经验存储到经验池中并采样固定数量的经验,根据深度Q网络算法进行网络参数更新的策略训练模块以及在对话的每一个轮回计算对话的奖励回报并输出至策略训练模块的奖励函数模块。2.根据权利要求1所述的系统,其特征是,所述的随机选择中,选择学生决策模块产生的回复动作的确定度由Q-网络Dropout带来的不确定性定义,具体为:Q-网络的每一个隐层后设有一Dropout层,在决策时,由于Dropout层每次将隐层节点置0的位置不同,对于同一对话状态输入,网络的输出也会不同,重复输入N次,得到N个动作,其中占比最大的动作为stu最终的决策动作a,同时对应的占比即为决策的确定度ct。3.根据权利要求1或2所述的系统,其特征是,所述的动作选择模块在第e个对话时:1)计算当前对话前连续W个对话决策的平均确定度其中:Ti表示第i个对话的总的对话轮数;tea2)根据单调递增函数Ptea(ΔCe)计算选择教师决策模块产生的回复动作a作为最终决策动作的概率ptea,其中:ΔCe=max(0,Cth-Ce),Cth是确定度界限;3)依概率ptea进行伯努利采样,当采样值为1,则选择教师决策模块产生的回复动作atea,否则选择学生决策模块产生的回复动作astu;4)当连续K个对话下平均确定度Ce都大于Cth,则从此时开始最终的决策动作at都选择astu,此时刻即为干预结束点。4.根据权利要求3所述的系统,其特征是,所述的单调递增函数其中:a是小于Cth的常数。5.根据权利要求1所述的系统,其特征是,所述的奖励回报,通过以下方式得到:①在每一个对话轮回产生一个负数奖励;当对话结束时,当输出模块回复的内容满足用户要求,则视为成功完成了用户任务,则产生一个正奖励;tea②在干预结束点之前,在每一轮对话,当at与a不同,则产生一个负数奖励,否则产生一个正奖励。6.根据权利要求1所述的系统,其特征是,所述的对话经验包括:当前轮对话状态st、对话动作at、下一个对话状态st+1及当前轮奖励rt。7.根据权利要求1所述的系统,其特征是,所述的经验池包括:教师经验池和学生经验池,当动作选择模块取自教师决策模块产生的回复动作atea,则当前的对话经验放入教师经2CN107342078A权利要求书2/3页验池中,否则放入学生经验池中。8.根据权利要求1所述的系统,其特征是,所述的网络参数更新是指:首先依概率ptea进行伯努利采样,当采样值为1,则选择教师经验池,否则选择学生经验池,然后从选择的经验池中采样固定数量的经验用于Q-网络参数的更新。9.一种对话策略优化的冷启动实现方法,其特征在于,包括以下步骤:步骤1)接收用户的输入信息ot;步骤2)根据当前的输