预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

函数型数据异常值检验研究《统计与信息论坛杂志》2014年第六期一、函数型数据图形描述方法综述数据平滑方法是函数型数据图形化描述的基本工具。对于一组面板数据当使用数据平滑方法在同一个坐标系内绘出同一个指标不同时间点的拟合曲线而且这些曲线依照时间顺序以不同的颜色排列就形成了类似雨后彩虹一样的图形称这个图形为彩虹图。Hyndman使用惩罚样条插值法对1899年到2005年间法国特定年龄段男性的死亡率曲线形成的彩虹图数据进行了平滑处理得到一个形似彩虹的图形[7]。本文采用1991—2013年的中国上证指数统计数据使用惩罚样条插值法对每个交易日的收盘价和总的交易金额作彩虹图从1991年开始到2013年9月25日的数据依照不同颜色顺序排列形成了一组彩虹图。由于2007年和2010年中国股市的两次暴涨暴跌使图形看起来没有形成一个完整的彩虹形状但色谱同样逐次排列的光滑曲线在时间不断重复的条件下仍形成了函数型数据的彩虹图(见图1)。同时还可基于数据深度、数据密度或其他特性顺序作彩虹图。由于曲线在很多取值上重合很难识别平均曲线的位置或者大多数曲线的下降位置当异常值被曲线其他特性混淆时(例如某一段上的曲线形状与其他部分很不相同)则很难识别。对于单变量数据通常用箱线图来解决上述问题而本文的目的是以箱线图的形式定义函数型数据的变动这种箱线图可以给出偏离曲线、一条中心线和一个包含曲线中间50%部分的区域。图1是以上证指数收盘价和成交金额等自然指标进行的排序这样的排序在函数型数据的分析上缺乏新意很难从中发现统计规律。在函数型数据研究的文献中很多研究者采用不同的思路进行数据排序的尝试如可利用稳健主成分方法计算出每个时间点的主成分得分并以此排序形成彩虹图。几乎所有针对函数型数据的作图方法都涉及到对函数型数据的排序。图1中的数据是基于时间排序然而对于很多数据集以数据本身潜在的价值来排序似乎是更好的选择。关于函数型数据的很多排序方法都使用了数据深度或者数据密度的概念这些方法揭示了给定的函数型数据的观测值及其潜在分布的“深度”或“密度”的情形[8-9]。一般情况下一个深度函数或密度函数的轮廓图可以用来展现多变量数据的可以看得见的形状和结构特征。(一)函数型数据深度的测度方法Febrero等人提出了一种基于函数型深度概念的异常值检测方法其基本定义为:其中对于给定的x值D(yi(x))是对其深度的度量函数。在这个定义下通过一个不断增加的o{i}序列来定义曲线的顺序因此接近x轴的第1条曲线的函数型数据深度最小而最后一条的最大。(二)二元主成分得分深度的测度对多变量函数型数据进行主成分分析设φk(x{})为主成分zi{k}是对函数型数据进行主成分分解后的主成分得分。原始数据yi(x{})中的大量信息可以由少数的前几个主成分及其得分反映出来。大多数情形下对于一些经济或自然观察数据而言少数几个主成分得分往往可以积累超过80%的方差贡献率这也正是主成分分析的优点之一。因此将考虑前两个得分向量(z11z21…zn1)和(z12z21…zn2)并考虑将这两个向量应用到深度函数的方法中还可将二维平面上的点(zi1zi2)看作zi。Tukey还提出了二元得分可以利用半空间位置深度排序的方法即用d(θz)表示θ∈R2对应于二元数据区域z={zi;i=12…n}[8]。Tukey深度函数被定义为:当θ存在于封闭半平面边界上时该半平面内全部数据点的最小值可以按照距离d(ziZ)以升序排列这种顺序下的第一条曲线可认为是平均线而最后一条曲线是在样本曲线中离中心最远的曲线。(三)数据密度方法Scott提出的数据密度方法是通过每个观测值上的二元核密度估计值排序[10]209-210。设oi=^f(zi)^f(zi)是由所有二元主成分得分计算得到的核密度估计值这样函数型数据就可以按照o{i}的值以升序排序。因此有最高密度的曲线是第一个观测值而最后一条曲线是最低密度值;第一条曲线被认为是模板曲线(这里可以理解为基本的参照曲线)而最后一条曲线被认为是最不同寻常的曲线实际上也最可能是异常值。应注意到这种排序下的最后一条曲线取值与其他曲线差异可能不大其二元得分也可能并不在散点图(zi1zi2)的边缘可能的情形是有一点在散点图内但该点附近再无其他点这样该曲线就表现为低密度值。二、函数型数据图形分析的主要方法(一)彩虹图对于一些不依时间而按其他统计指标排序的数据基于特定的排序指标或辅助标志也可以用彩虹图来表示例如上面定义的数据深度或数据密度排序指标绘图时根据o{i}的排序即可选择对应的线条颜色。为验证上述方法Hyndman根据国际气象组织公布的厄尔尼诺现象的测量数据进行模拟计算选择了1951年1月至2007年12