预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107169314A(43)申请公布日2017.09.15(21)申请号201710266658.0(22)申请日2017.04.21(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人宋凯毕家豪(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人宋洁瑾(51)Int.Cl.G06F19/26(2011.01)权利要求书1页说明书3页附图1页(54)发明名称分析生物基因组基因表达、拷贝数变异的可视化方法(57)摘要本发明公开了一种分析生物基因组基因表达、拷贝数变异的可视化方法,每个染色体的所有基因,按照每个基因的起始位置作为横坐标,用matlab软件中的独立样本检验函数ttest2,每个基因会得到一个P值,然后对P值进行处理,然后规定两组样本的颜色,确定Y轴朝向,用matlab中的line函数绘制线,确定百分比值。本发明的可视化方法,在两种癌症类型下进行基因表达量或者拷贝数变异对比的时候,或者在同一个癌症类型下正常类型样本和肿瘤类型样本的基因表达量或者拷贝数变异对比的时候可以直观的反映哪种类型的癌症或者哪种类型样本的值大;对于基因表达量,高级曼哈顿图可以直观显示出基因是过表达呢还是表达不足;对于拷贝数变异,高级曼哈顿图可以直观显示出基因是扩增还是丢失。CN107169314ACN107169314A权利要求书1/1页1.一种分析生物基因组基因表达、拷贝数变异的可视化方法,其特征在于,包括以下步骤:(1)横纵坐标的确定:把每个染色体的所有基因,按照每个基因的起始位置作为横坐标;用matlab软件中的独立样本检验函数ttest2,然后每个基因会得到一个P值,然后对P值进行处理,-10log10(P)这个值始终是正的,我们将这个值作为纵坐标的幅度值;(2)颜色的确定:事先需要规定两组样本的颜色,然后用matlab中的中位数函数,遍历出这两组样本中每个基因的拷贝数的中位数值,然后比较每个基因的两个中位数,谁的中位数值大,则颜色就取规定的该中位数所属组的颜色;(3)Y轴朝向的确定:在找到每个基因拷贝数中位数值大的所属的样本组后,拿这个大的基因拷贝数值中位数和该组所属的癌症类型中的正常样本的基因拷贝数中位数值做差,做差后的结果,如果值是正值则纵轴方向朝上,如果值是负值则纵轴方向朝下;(4)绘制线:用matlab中的line函数;(5)垂直虚线:因为中心体也有具体的位置,同样可以用line函数,把虚线绘制出来;(6)百分比值的确定:用Bonferonni校正的p值为2*10的-6次,做水平虚线,然后计算每个染色体中的p臂或者q臂中,P值大于那条水平虚线阈值的基因个数占该染色体整个p臂或者q臂的比例。2.根据权利要求1所述分析生物基因组基因表达、拷贝数变异的可视化方法,其特征在于,所述步骤(2)两组样本可以是两种癌症样本,或者是同一种癌症下的肿瘤样本和正常样本。2CN107169314A说明书1/3页分析生物基因组基因表达、拷贝数变异的可视化方法技术领域[0001]本发明属于生物信息学或基因技术的技术领域,涉及一种分析生物基因组基因表达、拷贝数变异的可视化方法。背景技术[0002]随着生物科学的发展,人类基因组计划完成后,人类对生命现象的探索越来越深入。我们已经知道人体基因约含3万多个基因,它们由约30亿个碱基对组成,分布在细胞核的23对染色体中。[0003]DNA序列总量实在是一个天文数字,然而研究DNA及其编码的功能大分子蛋白质,对逐日增多的序列和结构进行收集、整理、储存、发布、提取和加工。并从中分析和发现新的序列,从而不断揭示人体生理和病理过程的分子基础,为人类疾病的预防、诊断和治疗提供依据,其意义是十分重大的,并已形成了“生物信息学”一门新兴学科。[0004]全基因组基因表达量和拷贝数变异的可视化方式的研究,也是一个重要的内容。目前全基因组基因表达量和拷贝数变异可视化方式,比较常见的有曼哈顿图,这种图,比较单一,其特点是直观方便,[0005]但是在两种癌症类型下进行基因表达量或者拷贝数变异对比的时候,或者在同一个癌症类型下正常类型样本和肿瘤类型样本的基因表达量或者拷贝数变异对比的时候不能直观的反映哪种类型的癌症或者哪种类型样本的值大;[0006]对于基因表达量,曼哈顿图不能直观显示出基因是过表达呢还是表达不足;对于拷贝数变异,曼哈顿图不能直观显示出基因是扩增还是丢失。发明内容[0007]为了解决现有技术中存在的问题,本发明提供一种分析生物基因组基因表达、拷贝数变异的可视化方法,高级曼哈顿图(Deflectionplot),克服现有技术中在两种癌症类型下进行基因表达量或者拷贝数变异比较,或者在同一个癌症类型下正常类型样本