预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113779103A(43)申请公布日2021.12.10(21)申请号202110228171.X(22)申请日2021.03.02(71)申请人北京沃东天骏信息技术有限公司地址100176北京市昌平区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人罗尚勇柳婷石亚庆王晓勤林元晟(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06F16/2458(2019.01)G06K9/62(2006.01)权利要求书3页说明书12页附图5页(54)发明名称用于检测异常数据的方法和装置(57)摘要本公开的实施例公开了用于检测异常数据的方法和装置。该方法的一具体实施方式包括:获取待检测商品的数据流;基于数据流,构建待检测商品在预设时长内的价格时间序列;从价格时间序列中提取出第一预设数量个序列样本,并确定各序列样本的编号,得到序列样本集;采用预设的RRCF模型,基于序列样本集,确定目标序列样本和参考序列样本的异常指数,目标样本序列为包括目标特征值的序列样本,目标特征值表征数据流中最新时刻的价格信息,参考序列样本为编号最接近目标序列样本的编号的序列样本;基于目标序列样本和参考序列样本的异常指数,确定目标序列样本的异常评分;响应于确定异常评分大于预设的评分阈值,确定数据流中存在异常数据。CN113779103ACN113779103A权利要求书1/3页1.一种用于检测异常数据的方法,其中,包括:获取待检测商品的数据流,所述数据流包括所述待检测商品的价格信息;基于所述数据流,构建所述待检测商品在预设时长内的价格时间序列;从所述价格时间序列中提取出第一预设数量个序列样本,并基于预设的编号策略,确定各所述序列样本的编号,得到序列样本集,其中,每个所述序列样本包括按照时间排列的第二预设数量个特征值,所述特征值表征所述待检测商品的价格信息;采用预设的RRCF(RobustRandomCutForest,鲁棒随机砍伐森林)模型,基于所述序列样本集,确定目标序列样本和参考序列样本的异常指数,所述目标样本序列为包括目标特征值的序列样本,所述目标特征值表征所述数据流中最新时刻的价格信息,所述参考序列样本为编号最接近所述目标序列样本的编号的序列样本;基于所述目标序列样本和所述参考序列样本的异常指数,确定所述目标序列样本的异常评分;响应于确定所述异常评分大于预设的评分阈值,确定所述数据流中存在异常数据。2.根据权利要求1所述的方法,其中,所述序列样本集经由如下步骤生成:基于预设的随机干扰系数和均匀分布的随机数,对所述价格时间序列进行随机干扰,得到干扰后的价格时间序列;采用预设长度的滑窗,从所述干扰后的价格时间序列中截取出第一预设数量个序列样本,所述预设长度与所述第二预设数量对应;将所述第一预设数量个序列样本确定为所述序列样本集。3.根据权利要求2所述的方法,其中,将所述第一预设数量个序列样本确定为所述序列样本集,之前,所述方法还包括:采用基于距离的均值池化算法,更新所述序列样本的各特征值。4.根据权利要求3所述的方法,其中,采用预设的RRCF模型,基于所述序列样本集,确定目标序列样本和参考序列样本的异常指数,包括:初始化所述预设的RRCF模型,得到初始化后的RRCF模型;基于所述序列样本集,采用如下步骤更新所述初始化后的RRCF模型:将当前序列样本集中编码与所述目标序列样本的编码差值最大的当前序列样本输入所述初始化后的RRCF模型,并将所述初始化后的RRCF模型中输入时间最早的序列样本删除;从当前序列样本集中删除所述当前序列样本;分别将所述目标序列样本和所述参考序列样本输入更新后的所述RRCF模型,得到所述目标序列样本和所述参考序列样本的异常指数。5.根据权利要求3所述的方法,其中,采用预设的RRCF模型,基于所述序列样本集,确定目标序列样本和参考序列样本的异常指数,包括:基于所述序列样本集,构造新RRCF模型;分别将所述目标序列样本和所述参考序列样本输入所述新RRCF模型,得到所述目标序列样本和所述参考序列样本的异常指数。6.根据权利要求3所述的方法,其中,采用预设的RRCF模型,基于所述序列样本集,确定目标序列样本和参考序列样本的异常指数,包括:基于所述序列样本集中的各特征值,确定所述序列样本集中的各特征值的均值;2CN113779103A权利要求书2/3页基于所述序列样本集中的各特征值以及所述均值,确定所述序列样本集的波动系数;响应于所述波动系数不小于所述随机干扰系数,基于所述序列样本集,构造新RRCF模型;分别将所述目标序列样本和所述参考序列样本输入所述新RRCF模型,得到所述