预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108959412A(43)申请公布日2018.12.07(21)申请号201810580489.2(22)申请日2018.06.07(71)申请人出门问问信息科技有限公司地址100080北京市海淀区苏州街3号16层1602室(72)发明人王晓雪吴世伟(74)专利代理机构北京品源专利代理有限公司11332代理人孟金喆(51)Int.Cl.G06F17/30(2006.01)G06F17/27(2006.01)权利要求书2页说明书14页附图5页(54)发明名称标注数据的生成方法、装置、设备及存储介质(57)摘要本发明实施例公开了一种标注数据的生成方法、装置、设备及存储介质,所述方法包括:获取数据需求方提供的与需求样本匹配的样本条件信息;其中,所述样本条件信息包括:需求样本的当前语义理解协议、与需求样本关联的历史样本的历史语义理解协议、需求样本的样本类型以及需求样本的语法规则;将所述样本条件信息提供给至少一个数据标注方,并获取所述数据标注方针对所述样本条件信息生成的备选标注样本;根据所述样本条件信息对所述备选标注样本进行合理性校验,得到目标标注样本;根据所述目标标注样本以及所述样本条件信息,构造结构化的标注数据,实现高效获取所需求的多轮交互系统的数据,简化数据获取流程,并降低人工成本。CN108959412ACN108959412A权利要求书1/2页1.一种标注数据的生成方法,其特征在于,包括:获取数据需求方提供的与需求样本匹配的样本条件信息;其中,所述样本条件信息包括:需求样本的当前语义理解协议、与需求样本关联的历史样本的历史语义理解协议、需求样本的样本类型以及需求样本的语法规则;将所述样本条件信息提供给至少一个数据标注方,并获取所述数据标注方针对所述样本条件信息生成的备选标注样本;根据所述样本条件信息对所述备选标注样本进行合理性校验,得到目标标注样本;根据所述目标标注样本以及所述样本条件信息,构造结构化的标注数据。2.根据权利要求1所述的方法,其特征在于,所述需求样本包括:用户端在当前对话轮次下的交互式;与需求样本关联的历史样本包括:在所述当前对话轮次关联的至少一个历史对话轮次下,用户端和/或系统端的交互式。3.根据权利要求2所述的方法,其特征在于:在所述当前语义理解协议中,以JSON格式定义了与所述需求样本关联的第一目标字段,以及与所述第一目标字段对应的字段值;在所述历史语义理解协议中,以JSON格式定义了与所述历史样本关联的第二目标字段,以及与所述第二目标字段对应的字段值;在所述语法规则中,定义了所述需求样本中必须包含的第三目标字段,以及所述需求样本中不能包含的第四目标字段;所述需求样本的样本类型包括:所述需求样本与所述当前语义理解协议的语境相符合的正样本类型,或者所述需求样本与所述当前语义理解协议的语境不相符合的负样本类型;其中,所述第一目标字段与所述第二目标字段相同,所述第一目标字段或者所述第二目标字段包括下述至少一项:领域、意图、语义动作以及槽信息。4.根据权利要求3所述的方法,其特征在于,根据所述样本条件信息对备选标注样本进行合理性校验,得到目标标注样本,包括:在所述样本条件信息中,获取所述需求样本的当前语义理解协议;在所述备选标注样本中,获取与所述当前语义理解协议中包括的第一目标字段对应的待验证字段值;如果确定所述待验证字段值与所述当前语义理解协议中的所述第一目标字段对应的字段值相匹配,则将所述备选标注样本确定为所述目标标注样本。5.根据权利要求3所述的方法,其特征在于,根据所述样本条件信息对备选标注样本进行合理性校验,得到目标标注样本,包括:在所述样本条件信息中,获取所述需求样本的语法规则;在所述备选标注样本中,查找与所述语法规则对应的第三目标字段以及第四目标字段;如果确定查找结果与所述语法规则相匹配,则将所述备选标注样本确定为所述目标标注样本。6.根据权利要求1-5任一项所述的方法,其特征在于,所述样本条件信息还包括:2CN108959412A权利要求书2/2页与所述需求样本匹配的所述当前对话轮次的交互式示例,以及与所述历史样本匹配的所述历史对话轮次的交互式示例;其中,所述当前对话轮次的交互式示例与所述需求样本的当前语义理解协议相符合;所述历史对话轮次的交互式示例与所述历史样本的历史语义理解协议相符合。7.根据权利要求1所述的方法,其特征在于,根据所述目标标注样本以及所述样本条件信息,构造结构化的标注数据,包括:在所述样本条件信息中,获取需求样本的当前语义理解协议、与需求样本关联的历史样本的历史语义理解协议以及需求样本的样本类型;将所述目标标注样本、所述需求样本的当前语义理解协议、与需求样本关联的历史样本的历史语义理解协议以及需求样