预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于质谱数据的糖组学解析系统和新方法研究质谱(MS)是一种仪器分析技术,它能够有效地解析聚糖结构并提供定性和定量的信息。糖组学是研究生物体内糖的分子结构及生物功能的科学。随着糖组学的发展,大量的聚糖结构通过解析质谱实验数据而确定。最近生物信息技术的发展提供了一个利用聚糖结构数据库和从头算法对MS或MS/MS数据提取有价值的信息的机会。功能糖组学协会(CFG)已经提供的基于网络的资源,使获得聚糖质谱实验数据和聚糖结构信息变得更加容易。然而,大量由质谱获取的聚糖分析的数据需要手动注释。此项工作不但耗时,而且精确度很低。此外,检测被埋没在噪音数据中的低强度信号峰仍然是一个挑战。因此,开发从MS数据中准确预测和注释聚糖结构的算法是非常需要的。本研究开发了一种基于匹配聚糖分子的同位素相对丰度(mGIA)的方法来预测和注释聚糖的单糖组成(糖组成)和单糖间连接方式(糖结构)的算法,它利用质谱数据中分子同位素的观测质荷比值,丰度特征以及两者之间的关系。我们首先构建了一个完整的聚糖分子的单糖组成库,其中包含了808个聚糖的单糖以及聚糖分子相应的同位素理论丰度。同时,我们利用CFG数据库中得到的样品数据并结合了一个有效的数据预处理技术生成了含有所有候选组成的数据集。数据预处理是为了从MS数据中精确地提取聚糖同位素观测峰簇,包括基线消除,平滑去噪,峰质心化处理和一个基于库的组成匹配方法。有别于大多数已报道的方法,我们不仅考虑到峰的质荷比值特征,还引入了相应的聚糖分子同位素的理论和观测丰度向量之间的欧几里德距离。为了解决不同聚糖分子同位素会出现重叠的问题,我们在匹配计算中增加了对重叠的区域的预测和识别。如果两个匹配到的组成的质荷比的差值接近于1至4之间的一个整数,并且每个峰各有一个相匹配的理论聚糖组成,那么我们就认为这两个糖组成的前五个同位素峰的质荷比是一个潜在的重叠区域。在每个样品数据中,我们都发现了超过20个潜在的重叠区域。我们通过构建一个最优化模型对每个潜在的重叠区域内的聚糖同位素簇进行了去卷积处理从而改善了mGIA算法。为了提高聚糖结构注释的精确度,我们提出了一个线性分类的评估方法。在分类器获取过程中,我们使用支持向量机(SVM)算法训练了三个候选聚糖组成数据集,它们是源于CFGprofiling数据库中的三个不同的人体组织样品数据。并使用CFGprofiling数据库中的小鼠肾脏样品数据对我们的算法进行了验证,结果显示比他人的注释多鉴定出6个聚糖组成。并且与已报道的算法相比,我们显著改善了对丰度较弱的离子的检测。因为从CFGprofiling数据库的7个CHO样品数据获得的训练数据集具有不平衡性,影响了分类器效果。我们因此尝试了几种不同的采样技术,如过采样技术SMOTE等,分别与支持向量机(SVMs)算法相结合对候选聚糖组成集进行训练。结果显示通过SMOTE-支持向量机算法,所有样品的注释灵敏度平均增长了26.8%。基于这个注释算法,我们开发了一个名为GlycoMaid的系统来帮助用户使用聚糖组成自动标注质谱实验数据,并列出注释的可信度以及所有在CFG数据库中的候选结构链接。软件包和源代码发布在http://code.google.com/p/glycomaid/。为了丰富注释的聚糖组成的候选结构集,我们通过一系列酶反应规则模拟了在内质网和高尔基体中的生物合成过程。结果发现具有较高质荷比值的聚糖组成在生成的结果中会出现较多的假阳性结构。我们还尝试使用了组织信息对来自CFG结构数据库的注释结果进行过滤,遗憾的是现有的生物信息非常有限,使得这种方法目前还不够理想。在本论文中,我们自主开发了mGIA算法来自动解析质谱数据并准确的注释聚糖的组成和结构。该算法的优势是分析低丰度峰和处理重叠聚糖同位素峰簇。