预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108596335A(43)申请公布日2018.09.28(21)申请号201810362557.8(22)申请日2018.04.20(71)申请人浙江大学地址310058浙江省杭州市西湖区余杭塘路866号(72)发明人张寅杨璞胡滨(74)专利代理机构杭州求是专利事务所有限公司33200代理人傅朝栋张法高(51)Int.Cl.G06N3/08(2006.01)G06Q10/06(2012.01)权利要求书2页说明书5页附图2页(54)发明名称一种基于深度强化学习的自适应众包方法(57)摘要本发明公开了一种基于深度强化学习的自适应众包方法。方法具体为:1)首先从众包系统中采样需要分配的任务和候选的众包工人;2)通过深度学习方法获得待分配任务和候选工人的低维特征表示;3)通过强化学习方法确定任务分配策略;4)众包系统根据分配策略分配任务,根据任务完成结果评估本次分配获得的收益,将该收益反馈给强化学习方法,更新强化学习参数;5)从1)开始继续下一轮的任务分配。和现有技术相比,本发明结合了深度强化学习方法,系统地对任务分配问题进行建模,针对不同任务本身的特征选择合适的众包工人,形成了自适应的智能众包方法,创造性地提升了众包的工作效率和效果。CN108596335ACN108596335A权利要求书1/2页1.一种基于深度强化学习的自适应众包方法,其特征在于,步骤如下:S1.首先从众包系统中采样需要分配的众包任务和众包工人的信息;S2.通过深度学习方法获得待分配任务和工人的低维特征表示,具体包括以下子步骤:S21.获取原始特征数据,包括众包任务的原始特征和众包工人的原始特征;S22.构建深度神经网络,包括Encoder和Decoder两部分,其中Encoder的输入为原始特征数据,输出为原始特征的低维表示;Decoder的输入为Encoder所得的低维表示,输出为该低维表示的解析结果,即原始特征数据的近似表达;S23.一同训练Encoder和Decoder,输入设定为原始特征数据,损失函数设定为原始特征数据与Decoder最终输出的距离,训练使得Encoder-Decoder的输出逼近原始特征数据;S24.使用训练好的Encoder,输入原始特征数据后获得原始特征数据的低维表示;S3.通过深度学习方法获得每个工人入选候选集合的概率,遴选候选工人,具体包括以下子步骤:S31.构建深度神经网络Candidate,输入为工人的低维特征表示,输出为该工人入选候选集合的概率;S32.训练Candidate,输入设定为工人的低维特征表示、工人得到任务后完成任务的概率,损失函数设定为工人完成任务概率和Candidate最终输出的距离,训练使得Candidate的输出逼近工人完成任务的概率,即工人任务完成率越高,工人入选候选集合概率越高;S33.使用训练好的Candidate,获得每个待分配工人入选候选集合的概率,并依概率将工人选入候选集合;S4.通过强化学习方法确定任务分配策略,完成本轮任务执行,具体包括以下子步骤:S41.将待分配任务和候选工人的低维特征作为强化学习Agent第一层的输入,第一层Agent根据其内部的深度神经网络确定一个到多个工人;S42.根据第一层Agent确定的工人,选取Agent第二层并输入待分配的任务,Agent第二层根据其内部的深度神经网络确定一个到多个任务进行分配,即确定任务分配策略,交由Environment执行;S43.得到Environment分配策略后立即完成分配,工人执行完分配的任务后计算本轮任务分配获得的收益;S5.根据上一轮执行结果,优化强化学习参数并更新工人的原始特征数据,并执行步骤S2-S4,具体包括以下子步骤:S51.根据上一轮任务执行结果,将Environment计算的收益反馈给强化学习两层Agent,两层Agent根据获得的收益反馈,调整内部的深度神经网络,提高选择高收益策略的概率,降低选择低收益策略的概率;S52.根据上一轮任务执行结果,更新工人的原始特征数据;S53.Environment保留上一轮未分配的任务,通过随机采样补全待分配任务,获得新一轮的待分配任务;并再次执行步骤S2获得新一轮的候选工人集合;S54.将新一轮的待分配任务和候选工人集合的原始特征作为输入,再次执行所述步骤S3和S4;S6.不断重复步骤S5直到众包任务完成。2.根据权利要求1所述的一种基于深度强化学习的自适应众包方法,其特征在于,步骤2CN108596335A权利要求书2/2页S1中,所述众包任务的原始特征包括任务分类标签、任务文本内容、预估困难程度;所述众包工人的原始特征包括别、年龄、完成任务时间分布、历史总分配任务数、历史总完成任务数、