预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905197A(43)申请公布日2023.04.04(21)申请号202211441127.8G06N3/08(2023.01)(22)申请日2022.11.17(71)申请人和利时卡优倍科技有限公司地址315000浙江省宁波市高新区宁波新材料创新中心东区7幢38号5-7申请人北京和利时数字技术有限公司(72)发明人黄振林刘俊杰刘金涛邹波(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师吴磊(51)Int.Cl.G06F16/215(2019.01)G06F16/2458(2019.01)G06N3/048(2023.01)G06N3/045(2023.01)权利要求书3页说明书11页附图3页(54)发明名称一种缺失值数据的填充方法、装置、设备及存储介质(57)摘要本申请公开了一种缺失值数据的填充方法、装置、设备及存储介质。在该方法中,获取不完整的数据集,数据集包含缺失项;构建数据集填充模型,并随机初始化所述数据集填充模型的参数和数据集的缺失项;将所述数据集输入所述数据集填充模型,基于优化算法更新所述数据集填充模型的参数以及数据集的缺失项;判断是否达到数据输出条件;若是,则输出包含填充数据的数据集。可见,通过上述方法,将数据集的缺失值视为变量并基于优化算法进行动态调整,提高了缺失值数据填充的准确性。CN115905197ACN115905197A权利要求书1/3页1.一种缺失值数据的填充方法,其特征在于,包括:获取不完整的数据集,所述数据集包含缺失项;构建数据集填充模型,并随机初始化所述数据集填充模型的参数和数据集的缺失项;将所述数据集输入所述数据集填充模型,基于优化算法更新所述数据集填充模型的参数以及数据集的缺失项;判断是否达到数据输出条件;若是,则输出包含填充数据的数据集。2.根据权利要求1所述的填充方法,其特征在于,将所述数据集输入所述数据集填充模型,基于优化算法更新所述数据集填充模型的参数以及数据集的缺失项,包括:将数据集中的第i个样本输入所述数据集填充模型,基于第一优化算法更新所述数据集填充模型的参数;若所述第i个样本为不完整样本,则基于第二优化算法更新所述第i个样本中的缺失项,将更新后的缺失项填充到所述第i个样本中;若所述不完整数据集中的数据样本未遍历结束,返回执行将所述数据集中的第i+1个样本输入所述数据集填充模型,基于第一优化算法更新所述数据集填充模型的参数,以及若所述第i+1个样本为不完整样本,则基于第二优化算法更新所述第i+1个样本中的缺失项,并将更新的缺失项填充到所述第i+1个样本中,直至达到数据输出条件。3.根据权利要求1所述的填充方法,其特征在于,所述数据集填充模型为:TT其中,xi=[xi1,xi2,…,xis]为样本输入值;yi=[yi1,yi2,…,yis]为样本输出值,i、j、s、l、k为自然数,φ(·)为激活函数;是第l个输入层神经元与第k个隐藏层神经元的连接权重;是第k个隐藏层神经元与第j个输出层神经元的连接权重;是第j个输出层神经元的阈值;是第k个隐藏层神经元的阈值。4.根据权利要求2所述的填充方法,其特征在于,所述基于第一优化算法更新所述数据集填充模型的参数,具体包括:所述第一优化算法的更新公式为:其中,η是学习速率;α是动量因子,θ(t+1)为本轮迭代中更新后的新值,θ(t)为在本轮迭代中更新前的旧值,θ(t‑1)为上轮迭代中更新前的旧值,θ∈W1,表示所述数据集填充模型的参数;ki表示样本输出值yi和样本输入值xi间的拟合2CN115905197A权利要求书2/3页误差,XP表示所述数据集;XM表示缺失值集合;表示缺失项;基于对ki计算关于θ的偏导数,求解本轮迭代中更新后的新值,以更新所述数据集填充模型的参数。5.根据权利要求4所述的填充方法,其特征在于,所述基于对ki计算关于θ的偏导数的计算公式为:oij表示样本输出值与样本输入值之间的误差;ki关于所述第j个输出层神经元的阈值的偏导数为:其中:表示激活函数关于函数输入的导数,为线性函数,ki关于所述第k个隐藏层神经元与第j个输出层神经元的连接权重的偏导数为:其中:表示针对输出层第j个神经元,隐藏层第k个神经元基于除xij外的其他样本输入值所求解的样本输出值,其模型为:j,s均为自然数;ki关于所述第k个隐藏层神经元的阈值的偏导数为:其中是激活函数的关于函数输入的导数;为sigmod函数,则为ki关于所述第l个输入层神经元与第k个隐藏层神经元的连接权重值的偏导数为:6.根据权利要求1所述的填充方法,其特征在于,所述数据输出条件包括:所述包含缺失项的数据集中的所有样本均遍历结束,且遍历次数达到设定阈值。7.根据权利要求1所述的填充方法,其特征在于