预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113934833A(43)申请公布日2022.01.14(21)申请号202111282914.8G06F40/30(2020.01)(22)申请日2021.11.01G06K9/62(2022.01)(71)申请人阳光保险集团股份有限公司地址518000广东省深圳市福田区红荔西路7002号第一世界广场A座17层(72)发明人张晗杜新凯吕超谷姗姗韩佳(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463代理人李飞(51)Int.Cl.G06F16/332(2019.01)G06F16/33(2019.01)G06F16/35(2019.01)G06F40/194(2020.01)权利要求书2页说明书10页附图3页(54)发明名称训练数据的获取方法、装置、系统及存储介质(57)摘要本申请的一些实施例提供训练数据的获取方法、装置、系统及存储介质,该训练数据的获取方法包括:根据目标语义表征模型获取多个语句中各语句的语义表征向量;根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值;若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。本申请一些实施例可以构造出具有语义匹配层面的负样本数据,进而使得采用这些负样本数据训练得到的文本匹配模型具有较强的语义匹配能力。CN113934833ACN113934833A权利要求书1/2页1.一种训练数据的获取方法,其特征在于,所述获取方法包括:根据目标语义表征模型获取多个语句中各语句的语义表征向量;根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值,其中,所述剩余各语句组成所述任一语句的参考语句;若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。2.根据权利要求1所述的获取方法,其特征在于,所述根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,包括:将所述多个语句中任一语句与剩余各语句分别组成一个语句对,得到多个语句对,其中,所述多个语句对中任一语句对包括所述任一语句和所述任一语句的参考语句;从存储单元读取所述多个语句对中任一语句对对应的两个语义表征向量,其中,所述存储单元用于存储所述多个语句中各语句的语义表征向量;根据所述两个语义表征向量和所述相似度算法,获取所述任一语句对的相似度值。3.根据权利要求1‑2任一项所述的获取方法,其特征在于,所述根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,包括:将所述多个相似度值按照预设的规则进行排序,获取排序队列;根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似。4.根据权利要求2所述的获取方法,其特征在于,所述将所述多个相似度值按照预设的规则进行排序,包括:将所述相似度值按照从大到小的顺序进行排序;所述根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之前的位置,则确认所述任一语句与所述参考语句相似。5.根据权利要求2所述的获取方法,其特征在于,所述将所述多个相似度值按照预设的规则进行排序,包括:将所述相似度值按照从小到大的顺序进行排序;所述与根据所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之后的位置,则确认所述任一语句与所述参考语句相似。6.根据权利要求1所述的获取方法,其特征在于,在确认所述任一语句与所述任一参考语句不属于相同的语句簇之前,所述获取方法还包括:根据聚类算法获取各标准语句的所有相似语句,得到与所述各标准语句对应的语句簇;或者,根据聚类算法把所有语句聚类为多个语句簇。7.根据权利要求1所述的获取方法,其特征在于,在根据目标语义表征模型获取多个语2CN113934833A权利要求书2/2页句中各语句的语义表征向量之前,所述获取方法还包括:对获取的原始语句进行预处理,得到预处理后的数据,其中,所述预处理包括去除所述原始语句中的噪声和/或将所述原始语句中长度大于设定阈值的语句进行切分;将所述预处理后的数据划分为训练数据集和验证数据集;根据所述训练数据集中的数据对构建的初始语义