预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114139627A(43)申请公布日2022.03.04(21)申请号202111452814.5(22)申请日2021.12.01(71)申请人东软集团股份有限公司地址110179辽宁省沈阳市浑南新区新秀街2号(72)发明人郑铭鑫曹延泽刘长虹韩宇吴迪孙海伦陆可李博文(74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙)11447代理人张桂杰(51)Int.Cl.G06K9/62(2022.01)G16H50/70(2018.01)权利要求书2页说明书12页附图4页(54)发明名称数据确定方法、装置、存储介质及电子设备(57)摘要本公开涉及一种数据确定方法、装置,存储介质及电子设备,以提高获取用于因素建模分析的数据的效率。该方法包括:获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,所述聚类结果包括多个簇;基于预设的簇筛选策略,从所述多个簇中确定目标簇;将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。CN114139627ACN114139627A权利要求书1/2页1.一种数据确定方法,其特征在于,所述方法包括:获取待处理数据,所述待处理数据包括数据集中各个对象对应在目标数据类型下的数据,所述目标数据类型根据待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型得到;基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,所述聚类结果包括多个簇;基于预设的簇筛选策略,从所述多个簇中确定目标簇;将目标对象对应在所述目标数据类型下的数据,确定为目标数据,所述目标对象为所述目标簇中包括的对象,所述目标数据用于验证因素建模分析。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待纳入单因素建模分析的第一数据类型以及待纳入多因素建模分析的第二数据类型;获取所述第一数据类型以及所述第二数据类型的并集,作为所述目标数据类型。3.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据,对所述各个对象进行聚类处理,得到聚类结果,包括:基于所述各个对象分别对应在所述目标数据类型下的数据间的差异,通过k均值聚类算法,对所述各个对象进行聚类,得到所述聚类结果。4.根据权利要求3所述的方法,其特征在于,所述k均值聚类算法的所述多个簇的数量的确定步骤包括:获取所述目标数据类型包括的各个分类数据类型分别对应的分类数量;将目标分类数据类型包括的所述分类数量,与所述目标数据类型包括的数据类型的数量的乘积,确定为参考簇数量,所述目标分类数据类型为对应分类数量最多的数据类型;基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量。5.根据权利要求4所述的方法,其特征在于,所述基于所述参考簇数量,确定所述k均值聚类算法的所述多个簇的数量,包括:基于所述参考簇数量以及簇数量浮动值,确定实验簇数量;将各个所述实验簇数量分别作为k均值聚类算法的簇数量,分别通过k均值聚类算法,对所述各个对象进行聚类,得到k均值聚类算法对应在各个所述实验簇数量下的聚类结果;基于各个聚类结果对应的赤池信息量,确定所述k均值聚类算法的所述多个簇的数量。6.根据权利要求1所述的方法,其特征在于,所述基于预设的簇筛选策略,从所述多个簇中确定目标簇,包括:基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值;确定从所述多个簇中删除一个待定簇之后,基于所述预设损失函数以及剩余的簇包括的对象对应的数据计算得到的第二损失函数值,所述待定簇为所述多个簇中的任一个簇;确定对应所述第二损失函数值最小时删除的待定簇为待删除簇;在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值小于所述第一损失函数值的情况下,将所述多个簇中删除所述待删除簇之后剩余的簇确定为新的多个簇,并返回基于预设损失函数以及所述多个簇包括的对象对应的数据,计算得到第一损失函数值2CN114139627A权利要求书2/2页的步骤,直到在从所述多个簇中删除所述待删除簇之后对应的第二损失函数值大于所述第一损失函数值,且在从所述多个簇中删除所述待删除簇之后剩余的簇包括的对象大于预设数量时,将从所述多个簇中删除所述待删除簇之后剩余的簇确定为所述目标簇。7.根据权利要求6所述的方法,其特征在于,所述损失函数包括:其中,UNIi表示纳入单因素建模分析的第i个所述第一数据类型在单因素建模分析时对应的p值,l表示第一数据类型的数量,MULj