预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107357838A(43)申请公布日2017.11.17(21)申请号201710483734.3(22)申请日2017.06.23(71)申请人上海交通大学地址200240上海市闵行区东川路800号申请人苏州思必驰信息科技有限公司(72)发明人俞凯常成杨闰哲陈露周翔(74)专利代理机构上海交达专利事务所31201代理人王毓理王锡麟(51)Int.Cl.G06F17/30(2006.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L15/183(2013.01)权利要求书2页说明书5页附图3页(54)发明名称基于多任务学习的对话策略在线实现方法(57)摘要一种基于多任务学习的对话策略在线实现方法,通过实时获取人机对话的语料信息,提取当前用户状态特征和用户动作特征并构造得到训练输入;然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注,并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化,最后合并两项奖赏值,并更新对话策略。本发明采用强化学习的框架,通过在线学习进行对话策略优化,无需根据领域人工设计规则策略,能够适应不同复杂度的领域信息结构、不同规模的数据;本发明将原始优化单一累积奖赏值的任务进行分解,利用多任务学习同时优化从而学到更好的网络结构,降低训练过程的方差。CN107357838ACN107357838A权利要求书1/2页1.一种基于多任务学习的在线对话系统,其特征在于,包括:语音识别模块、语义理解模块、对话管理模块、自然语言生成模块和语音合成模块,其中:语音识别模块与语义理解模块相连并传输用户语音识别之后的文本信息,语义理解模块与对话管理模块相连并传输用户语义信息,对话管理模块与自然语言生成模块相连并传输机器语义信息,自然语言生成模块与语音合成模块相连并传输机器语义信息;对话管理模块中进一步包括:对话状态跟踪子模块和与之相连并传输当前对话状态信息的对话策略子模块。2.一种基于多任务学习的对话策略在线实现方法,其特征在于,通过实时获取人机对话的语料信息,提取当前用户状态特征和用户动作特征并构造得到训练输入;然后将对话策略学习过程中的单一累积奖赏值拆分成对话轮数奖赏值和对话成功奖赏值作为训练标注,并在线训练过程中通过多任务学习技术对两种不同的值模型同时进行优化,最后合并两项奖赏值,并更新对话策略;所述的语料信息包括:当前对话的轮数、对话成功或失败的标识、用户语义信息、系统语义信息;所述的当前用户状态特征,由对话管理模块中的对话状态跟踪子模块根据历史用户语义和系统语义、当前用户语义和系统语义信息生成。3.根据权利要求2所述的方法,其特征是,根据不同的对话领域和应用需求,策略学习可能需要大量语料,在训练过程中可采用虚拟用户等虚拟环境代替真实用户和场景进行策略学习。4.根据权利要求2所述的方法,其特征是,所述的用户动作特征,从当前用户语义信息中提取,其表示形式采用:“槽值对”,其中:“槽”即是语义属性的名称,“值”对应该语义属性的值。5.根据权利要求2所述的方法,其特征是,所述的训练输入,通过以下方式得到:对提取得到的用户状态和用户动作要进行向量化,从而构造出训练样本的输入:用户状态特征st和用户动作特征at,其中:t是当前对话轮数。6.根据权利要求2所述的方法,其特征是,所述的拆分是指:将当前累积奖赏值拆分为对话轮数奖赏值和对话成功奖赏值,即:其中:t是对话轮数,rt是第t轮的累积奖赏值,是第t轮的对话轮数奖赏值,是第t轮的对话成功奖赏值;第t轮的对话轮数奖赏值的大小根据当前对话轮数t和每轮对话惩罚值确定,即:其中:t是对话轮数,plt是对话轮数立即惩罚值;第t轮的对话成功奖赏值的大小根据当前对话是否结束,以及对话是否成功来确定,即:其中:δ是对话成功标识,当且仅当对话结束且成功时值为1,否则为0,rwd是对话成功立即奖赏值。7.根据权利要求2所述的方法,其特征是,所述的优化是指:建立一个多任务学习模型同时优化对话轮数奖赏值和对话成功奖赏值,该多任务学习模型的输入是训练输入,模型的标注为训练标注;所述的多任务学习模型采用:强化学习的深度动作学习网络算法、双深度动作学习网络算法或优先深度动作学习网络算法。8.根据权利要求7所述的方法,其特征是,所述的强化学习的深度动作学习网络算法2CN107357838A权利要求书2/2页中,每一轮对话迭代更新动作网络Q(st,at;θ),其中:第t轮的用户状态st和用户动作at是动作网络Q的输入参数,θ是动作网络Q的网络结构参数。9.根据权利要求8所述的方法,其特征是,所述的多任务学习模型的动作学习目标Qe在每轮对话后更新为:其中