预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113849603A(43)申请公布日2021.12.28(21)申请号202111129021.XG06K9/62(2006.01)(22)申请日2021.09.26G06N3/02(2006.01)G06N3/08(2006.01)(71)申请人中科讯飞互联(北京)信息科技有限公司地址100085北京市海淀区西北旺东路10号院东区5号楼3层311-2申请人河北省讯飞人工智能研究院科大讯飞股份有限公司(72)发明人崔一鸣邵楠王士进刘挺(74)专利代理机构北京集佳知识产权代理有限公司11227代理人张静(51)Int.Cl.G06F16/33(2019.01)G06F16/332(2019.01)权利要求书3页说明书15页附图5页(54)发明名称负样本确定方法、相关设备及可读存储介质(57)摘要本申请公开了一种负样本确定方法、相关设备及可读存储介质,基于文本库中各个文本与样本问题的语义相似度,便能够从文本库中,确定与样本问题的语义相似度高,但不包含所述样本问题的答案的文本作为样本问题的负样本。基于该方法确定的负样本与样本问题的语义相似度高,但不包含所述样本问题的答案,对样本问题的迷惑性强。进一步的,将基于上述方法确定的负样本用于训练智能问答系统中的检索模型和问答模型,能够提升训练效果。而且,将基于上述方法确定的负样本用于测试智能问答系统中的检索模型和问答模型的鲁棒性时,相对于采用现有技术确定的对抗样本,效果更好。CN113849603ACN113849603A权利要求书1/3页1.一种负样本确定方法,其特征在于,所述方法包括:获取待确定负样本的样本问题以及所述样本问题对应的文本库;计算文本库中各个文本与所述样本问题的语义相似度;从所述文本库中确定样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本;将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。2.根据权利要求1所述的方法,其特征在于,所述计算文本库中各个文本与所述样本问题的语义相似度,包括:将所述样本问题输入语义相似度计算模型的问题编码器,所述问题编码器对所述样本问题进行编码,得到所述样本问题的特征向量;将所述文本库中的各个文本输入所述语义相似度计算模型的文本编码器,所述文本编码器对所述文本库中的各个文本进行编码,得到所述文本库中各个文本的特征向量;所述语义相似度计算模型的计算模块计算所述文本库中各个文本的特征向量,与所述样本问题的特征向量的相似度,作为所述文本库中各个文本与所述样本问题的语义相似度。3.根据权利要求2所述的方法,其特征在于,所述语义相似度计算模型的训练方式如下:确定预训练数据集,所述预训练数据集中包括多个预训练数据,每个预训练数据包括一个样本问题、所述样本问题的正样本以及所述样本问题的负样本;确定所述样本问题的正样本的第一标签,所述样本问题的负样本的第二标签;以每个样本问题与所述样本问题的正样本的语义相似度趋近于所述第一标签,以所述样本问题与所述样本问题的负样本的语义相似度趋近于所述第二标签为训练目标,对所述语义相似度计算模型进行预训练,得到预训练的语义相似度计算模型;对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型。4.根据权利要求3所述的方法,其特征在于,所述对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型,包括:获取优化训练样本问题;基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度;基于文本库中各个文本与各优化训练样本问题的语义相似度,从所述文本库中确定各优化训练样本问题的负样本;确定所述优化训练样本问题的负样本的第三标签,所述第三标签用于表征所述优化训练样本问题的负样本被确定为包含所述优化训练样本问题的答案的样本的概率;以每个优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第三标签为训练目标,对所述预训练的语义相似度计算模型进行优化训练。5.根据权利要求4所述的方法,其特征在于,所述基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度,包括:2CN113849603A权利要求书2/3页将所述文本库中各文本输入所述预训练的语义相似度计算模型中的文本编码器进行编码,生成文本特征向量索引库,所述文本特征向量索引库中包括多个文本特征向量索引,每个文本特征向量索引对应一个文本,每个文本特征向量索引包括所述文本在所述文本库中的编号和所述文本的特征向量;基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本