预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113779248A(43)申请公布日2021.12.10(21)申请号202111007053.2G06N3/04(2006.01)(22)申请日2021.08.30G06N3/08(2006.01)(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人袁平广李鹏黄英凡宋洪超程晓培李勇包勇军颜伟鹏(74)专利代理机构北京派特恩知识产权代理有限公司11270代理人赵翠萍张颖玲(51)Int.Cl.G06F16/35(2019.01)G06F16/36(2019.01)G06K9/62(2006.01)权利要求书3页说明书16页附图7页(54)发明名称数据分类模型训练方法、数据处理方法及存储介质(57)摘要本申请公开了一种数据分类模型训练方法、数据处理方法、装置、电子设备及存储介质,其中,数据分类模型训练方法包括:将第一特征张量输入数据分类模型,输出第二特征张量;所述第一特征张量中的每一行第一向量对应表征数据对象的一个第一属性名;所述第二特征张量中的每一行元素对应表征任两行第一向量的距离;基于输出的第二特征张量,对各第一向量进行聚类,得到至少一簇;对每一簇下的设定数量的第一向量对应的第一属性名进行标注,得到第一样本集;基于所述第一样本集确定损失值,根据确定出的损失值更新数据分类模型的权重参数,直到确定出的所有第一样本集满足设定的结束训练条件。CN113779248ACN113779248A权利要求书1/3页1.一种数据分类模型训练方法,其特征在于,所述方法包括:将第一特征张量输入数据分类模型,输出第二特征张量;所述第一特征张量中的每一行第一向量对应表征数据对象的一个第一属性名;所述第二特征张量中的每一行元素对应表征任两行第一向量的距离;基于输出的第二特征张量,对各第一向量进行聚类,得到至少一簇;对每一簇下的设定数量的第一向量对应的第一属性名进行标注,得到第一样本集;基于所述第一样本集确定损失值,根据确定出的损失值更新数据分类模型的权重参数,直到确定出的所有第一样本集满足设定的结束训练条件。2.根据权利要求1所述的方法,其特征在于,所述对每一簇下的设定数量的第一向量对应的第一属性名进行标注,得到第一样本集,包括:将每一簇下设定数量的第一向量中任两个第一向量对应的第一属性名进行组合,得到至少一个第一数据组;根据第一数据组包括的两个第一属性名是否对应同一类属性,对所述至少一个第一数据组中的每个第一数据组进行标注,得到每个第一数据组对应的标注结果;基于标注结果确定所述第一样本集。3.根据权利要求2所述的方法,其特征在于,所述基于标注结果确定所述第一样本集,包括:基于标注结果确定至少一个第二数据组;根据所有确定出的第二数据组得到所述第一样本集;其中,所述第二数据组由满足设定的构成条件的两个第一数据组构成;所述设定的构成条件表征两个第一数据组对应不同的标注结果,且两个第一数据组有且仅有一个相同的第一属性名。4.根据权利要求1所述的方法,其特征在于,所述将第一特征张量输入数据分类模型,包括:基于至少一类第一信息,确定对应的第一特征张量;将确定出的第一特征张量输入数据分类模型。5.根据权利要求4所述的方法,其特征在于,所述基于至少一类第一信息,确定对应的第一特征张量,包括:基于所述至少一类第一信息构建二分图,确定对应的第一特征张量;和/或,对所述至少一类第一信息进行分词,基于分词结果对应的词向量确定对应的第一特征张量。6.根据权利要求4所述的方法,其特征在于,至少两次确定对应的第一特征张量;所述将确定出的第一特征张量输入数据分类模型,包括:对确定出的至少两个第一特征张量进行非线性变换,得到第三特征张量;将得到的第三特征张量输入数据分类模型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述设定的结束训练条件,包括:标注结果表征同一簇下的设定数量的第一向量对应的第一属性名对应同一类属性;所述标注结果表征对每一簇下的设定数量的第一向量对应的第一属性名进行标注得到的结2CN113779248A权利要求书2/3页果。8.一种数据处理方法,其特征在于,所述方法包括:将第四特征张量输入数据分类模型,输出第五特征张量;所述第四特征张量中的每一行第二向量对应表征数据对象的一个第二属性名;所述第五特征张量中的每一行元素对应表征任两行第二向量的距离;基于输出的第五特征张量,对各第二向量进行聚类,得到至少一簇;基于聚类得到的每一簇对应的簇中心,确定每一簇对应的第三属性名;所述第三属性名表征对应簇的属性名;其中,所述数据分类模型采用如权利要求1至7任一项所述的数据分类模型训练