预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第34卷分析化学(FENXIHUAXUE)研究报告第5期 2006年5月ChineseJournalofAnalyticalChemistry617~620 主成分分析2支持向量回归建模方法及应用研究 侯振雨1,2蔡文生1,3邵学广33 1(中国科技大学化学系,合肥230026)2(河南科技学院化工系,新乡453003)3(南开大学化学系,天津300071) 摘要将主成分分析(PCA)用于近红外光谱的特征提取,并与支持向量回归(SVR)相结合,实现了主成分 分析2支持向量回归(PCA2SVR)用于近红外光谱定量分析的建模方法。与单纯的SVR方法相比,不仅提高了 运算速度,而且提高了模型的预测准确度。将PCA2SVR方法用于烟草样品中总糖和总挥发碱含量的测定,所 得结果的预测均方根误差分别为1.323和0.0477;回收率分别为91.8%~112.6%和88.9%~120.2%。 关键词主成分分析,支持向量回归,近红外光谱 1引言 主成分分析(PCA)已成为一种传统的数据分析方法,被广泛地应用于分析化学信号处理。将PCA 应用于近红外光谱(NIR)的数据处理,不仅可以消除背景和噪音干扰,而且可以消除光谱响应的共线 性。支持向量机(SVM)是基于统计学习理论提出的一种机器学习算法[1,2],在许多领域中得到了广泛 应用[3,4]。支持向量机回归(SVR)是基于SVM理论建立的一种回归技术,具有泛化能力强和预测准确 度高等优点,在分析化学领域已得到了初步应用[5~9]。但是,在具体的实际应用中仍然存在一些问题, 如当原始数据的变量较多时,SVR的计算速度较慢、参数优化困难等等[10]。最近,有文献报道将PCA、 ICA等特征提取技术与SVM技术相结合应用于时间序列分析和金融数据分析等[11,12],既提高了运算速 度,又提高了分类或预测准确度。 本研究将PCA与SVR相结合,建立了PCA2SVR建模方法并应用于烟草样品的NIR定量分析。结 果表明,PCA2SVR方法不仅模型速度明显优于SVR方法,而且所建模型的稳定性也明显好于SVR模型。 2原理与算法 PCA2SVR方法的基本思想是首先采用PCA对NIR数据进行特征提取,然后采用SVR进行建模。 因此,该方法既具有PCA的数据压缩和降维功能,又具有SVR的非线性建模能力和普适性。 关于PCA和SVR的原理和算法可参见有关参考文献,PCA2SVR方法的建模与预测步骤为: (1)对校正集NIR数据Xn×k(其中n为样品数、k为光谱数据点数)进行标准化,使之具有零均值、 单位方差;(2)对标准化的Xn×k进行PCA分析,得到得分矩阵Tn×m和载荷矩阵Pm×k(其中m为因子 数);(3)采用SVR对Tn×m和校正集的浓度进行建模;(4)对预测集NIR数据Xp×k(其中p为样品数、 -1 k为光谱数据点数)进行标准化并进行特征提取,即计算Tp×m=Xp×k(Pk×m),并利用所建立的SVR模 型进行浓度预测。 在本文的计算过程中,采用了误差(ε)不敏感损失函数和径向基(RBF)核函数,即: -‖xi-xj‖2 2σ2 K(xi,xj)=e(1) 式中xi和xj分别为不同样品的NIR光谱,σ为径向基函数的宽度。PCA的因子数(或主成分数)以及 与SVR相关的参数ε、σ和正则化系数C的数值分别采用检验集样本进行优化。 3实验部分 使用BrukerVector22/N近红外光谱仪(德国Bruker公司)测试了不同烟叶产区的110个粗烤烟叶 样品,采用1cm-1间隔记录了4000~9000cm-1的光谱数据。样品的常规组分,即:总糖(TS)和总挥发 2005206213收稿;2005211206接受 本文系国家自然科学基金(No.20325517)和教育部高等学校优秀青年教师教学科研奖励计划资助 ©1994-2006ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net 816分析化学第34卷 碱(TVA)的含量采用AutoAnalyzerIII连续流动分析仪(德国BranLuebbe公司)按照标准方法进行测 定。将110个样品的数据随机地分为3部分,其中60个样品的光谱数据用作校正集,20个样品的光谱 数据用作检验集,其余30个样品的光谱数据用作预测集。参数优化过程中均以检验集的预测均方根误 差(RMSEP)作为评价标准。 4结果与讨论 4.1主成分数与SVR参数的确定 如上所述,PCA2SVR方法包括4个需要调节的参数:PCA的主成分数以及与SVR相关的参数ε、σ 和正则化系数C。在建模过程中,首先利用检验集对4个参数的取值进行了优化。 图1为检验