基于数据挖掘技术的表观遗传分子标志在肺癌早期诊断中的应用

基于数据挖掘技术的表观遗传分子标志在肺癌早期诊断中的应用

作者:师大云端图书馆 时间:2015-11-04 分类:毕业论文 喜欢:3828
师大云端图书馆

【摘要】目前肺癌已成为人类癌症死亡的主要原因,是当今公共卫生领域的重大难题。因此,降低肺癌患者死亡率的关键在于早期预防。肺癌的发生是一个多因素、多阶段、多基因表达改变的复杂生物学过程,其发生的早期生物效应包括了DNA甲基化和端粒损伤在内的表观遗传学和遗传学改变。DNA甲基化是表观遗传学修饰的主要形式,其主要通过对CpG序列的胞嘧啶进行甲基化修饰来调控基因的表达,DNA序列本身并不改变。抑癌基因的启动子CpG岛甲基化使该基因在转录水平上失活,导致相关蛋白表达缺少,间接促进了肿瘤的发生。DNA甲基化是在DNA甲基转移酶(DNA–methyltransferase,DNMTs)催化下,以S腺苷甲硫氨酸为甲基供体,将甲基转移到DNACpG二核苷酸的胞嘧啶第5碳原子上的反应。这种表达上调的发生通常先于甲基化模式异常,所以被认为是肿瘤细胞的一个具有特征的早期分子改变,其可以通过促进DNA高甲基化参与肿瘤的发生和发展。与异常DNA甲基化类似,组蛋白修饰在基因的表达调节中同样扮演重要角色。在组蛋白的修饰中,研究最多的是乙酰化。组蛋白乙酰化与去乙酰化,分别是由组蛋白乙酰转移酶(histonedeacetylases,HAT)和去乙酰化转移酶(histonedeacetylases,HDAC)催化的。研究证明,HDAC能阻断抑制肺癌发生的关键基因通路,而且HDAC激活可能促进肿瘤形成。由于肿瘤的发生发展过程极其复杂,这些早期的分子标志改变对肺癌诊断的特异性并不高。目前人们多应用肿瘤标志联合检测,以提高灵敏度和特异度,但存在多参数及肿瘤标志之间的相互作用等问题,而解决这些问题的传统统计学方法一般都要求数据符合正态分布,但实际资料很少能满足这样的条件,故无法深层次利用这些数据。随着数据挖掘技术的发展,其在解决大量的变量带来的多参数问题上具有独特的优势,因此,利用早期分子生物标志及临床参数建立合适的智能型分类模型,将提高肺癌的早期诊断准确率。既往研究对象大部分为肺癌患者手术取得的肿瘤组织,而对于外周血甲基化的研究甚少。该研究拟检测对象血清中DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达水平与外周血DNA抑癌基因甲基化水平及端粒相对长度,探讨DNA甲基转移酶与组蛋白去乙酰化转移酶1和DNA甲基化及端粒长度是否为肺癌早期分子事件,以及这些异常的分子标志作为肺癌早期诊断可能性及联合检测对肺癌诊断的价值和它们之间的相关关系,在此基础上应用数据挖掘技术,构建较为智能型的预测模型,探讨有助于提高早期肺癌诊断的正确率及联合检测对肺癌辅助诊断的意义,为高危人群的筛查和临床肺癌早期诊断提供依据。目的(1)在肺癌组、肺良性疾病组及正常组血清中检测DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达水平;检测外周血DNA中FHIT、RASSF1A、MGMT基因启动子甲基化及端粒相对长度。(2)应用数据挖掘技术与传统的Logistic回归模型相比较,对分子指标进行判别分类,构建早期肺癌分子诊断模型。材料与方法1.研究对象的选择:136例原发性肺癌患者的外周血标本于2012年9月至2013年6月取自郑州大学第一附属医院肿瘤科及呼吸内科住院患者;140例肺良性疾病患者外周血同期取自郑州市第六人民医院肺科住院患者;145例正常对照组外周血取自同期郑州市第六人民医院体检科体检的正常人群。经医院临床伦理委员会批准及研究对象知情同意后,由专业的调查员和医生收集研究对象的流行病学资料并采集血液做相应的处理。2.DNA甲基转移酶及组蛋白去乙酰化转移酶检测:采用酶联免疫吸附法(ELISA)法检测血清中DNMT1、DNMT3a、DNMT3b及HDAC1的蛋白表达水平。3.实时荧光定量甲基化特异性PCR:用实时荧光定量PCR分析外周血DNAFHIT、RASSF1A和MGMT基因启动子甲基化及端粒相对长度。4.统计分析方法:采用SPSS12.0统计软件。根据数据分布类型选择表达方法及组间统计学检验方法。采用2检验、t检验、F检验、非条件Logistic回归等方法,分析血清中DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达水平和外周血DNA中FHIT、RASSF1A、MGMT基因甲基化水平及端粒相对长度,探讨DNA甲基转移酶及组蛋白去乙酰化转移酶1与抑癌基因甲基化和端粒相对长度与早期肺癌的关系。检验水准为α=0.05。5.建立模型方法:应用SPSSClementine12.0软件进行Logistic回归分析、决策树、人工神经网络和支持向量机数据挖掘分析。将DNMT1、DNMT3a、DNMT3b、HDAC1、MGMT、RASSF1A、FHIT和性别、年龄、吸烟史等变量纳入模型,将样本按3:1的比例随机分成训练集和预测集,用训练好的模型对预测集进行预测,并结合诊断试验评价指标对模型的预测结果进行评价。结果1.肺癌患者血清中DNMT1、DNMT3a、DNMT3b、HDAC1蛋白表达均高于对照组及肺良性疾病组,差异有统计学意义(P<0.05);肺癌患者血清中DNMT1、DNMT3a、DNMT3b、HDAC1蛋白表达与肺癌的组织学类型及临床分期无关(P>0.05)。2.外周血DNAMGMT、RASSF1A和FHIT基因启动子甲基化水平在肺癌组均高于对照组及肺良性疾病组,差异有统计学意义(P<0.05);单因素分析MGMT甲基化水平在肺癌组与性别、年龄及组织学类型有关(P<0.05);RASSF1A甲基化水平在肺癌组与年龄及临床分期有关(P<0.05);FHIT基因甲基化水平在肺癌组与年龄及组织学类型有关(P<0.05);分别将3个基因启动子甲基化水平分为4组及2组后,随着甲基化水平的增加,肺癌的危险性增加(Ptrend<0.05)。3.肺癌组端粒长度明显短于肺良性组及正常人组(P<0.001);多元线性回归分析结果提示,性别、年龄、吸烟史均与端粒长度相关(P<0.001),且随着年龄的增加也会使端粒长度缩短(P<0.001)。4.Logistic回归对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和受试者工作特征曲线下面积(AUC)分别为68.0%、88.6%、70.9%、60.7%、95.1%和0.923,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到89.11%;决策树对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为77.8%、95.1%、81.2%、75.0%、95.1%和0.946,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到99.01%;神经网络对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为59.1%、78.0%、60.5%、46.4%、95.1%和0.877,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到88.12%;支持向量机对肺癌诊断的预测灵敏度、特异度、准确度、阳性预测值、阴性预测值和AUC分别为54.5%、87.5%、62.6%、64.3%、85.4%和0.851,对101例(Ⅰ期+Ⅱ期)早期肺癌的预测准确率达到92.08%;对101例(Ⅰ期+Ⅱ期)早期肺癌的预测支持向量机的AUC仅次于决策树,明显高于Logistic回归和神经网络。结论:1.血清中DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白高表达可能与肺癌有关,可能是肺癌发病的早期效应生物学标志;但无组织学特异性并与肺癌病情进展、预后无关。2.外周血DNAMGMT、RASSF1A和FHIT基因启动子异常甲基化可能与肺癌有关,可抑制基因转录,促进肿瘤发生;外周血DNA端粒相对长度缩短可增加患肺癌的危险性。3.成功构建了基于DNA甲基转移酶及组蛋白去乙酰化转移酶1蛋白表达和抑癌基因甲基化的决策树模型,对肺癌的早期诊断效果优于Logistic回归、支持向量机和神经网络,可作为早期肺癌诊断的优选方法。
【作者】冯悦静;
【导师】王静;吴拥军;
【作者基本信息】郑州大学,内科学(专业学位),2013,博士
【关键词】DNA甲基化转移酶;HDAC1;抑癌基因甲基化;端粒;肺癌;早期诊断;数据挖掘;

【参考文献】
[1]王坚强,唐平.基于区间粗糙算子的粗糙随机多准则决策方法[J].控制与决策,2011,07:1056-1059+1064.
[2]于桂亮,黄书腾.浅析石墨烯的性质与应用前景[J].科技风,2011,21:91.
[3]董林.我国证券投资基金绩效评价的实证分析[D].吉林大学,工商管理,2004,硕士.
[4]申锋.机械絮凝池流场数值模拟与实验研究[D].扬州大学,市政工程,2011,硕士.
[5]穆永江.简支空心板桥的荷载横向分布特性研究[D].吉林大学,交通运输工程,2012,硕士.
[6]方金.基于多源遥感数据的甘南牧区草地生物量遥感监测研究[D].兰州大学,农业经济管理,2013,硕士.
[7]刘智秉.向量值有理插值存在性及在CAGD中的应用[D].合肥工业大学,计算数学,2004,硕士.
[8]李福勇.聚酯生产装置高参数齿轮泵的研制[D].清华大学,机械工程,2002,硕士.
[9]瑜措珍嘎.玛多地区草地生态保护可行路径探索[D].兰州大学,土地资源管理,2013,硕士.
[10]谢永东.康普公司深度营销管理及策略研究[D].湖南大学,2004.
[11]邓惠全.中青年缺血卒中患者始发态中医证候与脑血管造影分析[D].广州中医药大学,中医学(专业学位),2013,硕士.
[12]任晓丽.基于网络口碑的企业品牌传播研究[D].河北经贸大学,企业管理,2012,硕士.
[13]刘松.基于忆阻器件的滤波器和PID控制器研究[D].西南大学,信号与信息处理,2013,硕士.
[14]雷斌.水电站泄流雾化雨对岩质边坡稳定性影响的研究[D].天津大学,水利水电工程,2004,硕士.
[15]李光钰.基于都市农业理念的城市建筑生态设计探究[D].上海交通大学,建筑设计及其理论,2014,硕士.
[16]蒯真.浙江大学海外华人留学生的个人身份构建[D].浙江大学,中国学,2013,硕士.
[17]吴静.四种典型施威德勒型球面网壳参数化建模及形状优化设计[D].山东建筑大学,结构工程,2013,硕士.
[18]幸勇.我国高新技术企业成长性、资本结构和企业规模关系的实证研究[D].浙江工业大学,技术经济及管理,2004,硕士.
[19]王慧娟.基于NAT-PT的IPv4/IPv6转换机制研究和实现[D].杭州电子科技大学,计算机系统结构,2012,硕士.
[20]李宁宁.高分子纳米复合材料拉伸及压缩的分子动力学模拟[D].中国科学技术大学,高分子化学与物理,2014,硕士.
[21]王大伟.微热板基气敏元件的设计与制作[D].吉林大学,微电子学与固体电子学,2014,硕士.
[22]张伟涛.前移存在调整时间综合调度工序的研究[D].哈尔滨理工大学,计算机应用技术,2012,硕士.
[23]解相朋,宋阳,张化光.连续时间T-S模糊系统的一种二次镇定方法[J].控制与决策,2009,05:658-662.
[24]王琪.近接溶腔对隧道围岩稳定性影响及防治措施研究[D].长安大学,建筑与土木工程(专业学位),2014,硕士.
[25]许海燕.上市公司控制权溢价影响因素实证研究[D].北京交通大学,2014.
[26]戴柏.连接蛋白40、43基因表达水平对绒山羊毛囊生长发育相关基因表达的影响[D].内蒙古大学,动物学,2014,硕士.
[27]郭贵州.影响高中学生数学学习兴趣的因素调查[D].云南师范大学,学科教学论,2003,硕士.
[28]邓丽.面向主题的XML网页的模式和数据抽取[D].华侨大学,计算机应用技术,2004,硕士.
[29]吕倩.126例宫腔粘连患者临床资料回顾分析[D].河北医科大学,妇产科学(专业学位),2014,硕士.
[30]熊强.基于元胞传输模型的城市快速路网建模与仿真分析[D].长安大学,控制理论与控制工程,2013,硕士.
[31]王敦婷.团购网站中的数据挖掘应用技术研究[D].浙江工业大学,2013.
[32]张月华.当前我国农村基层服务型党组织建设研究[D].燕山大学,公共管理,2013,硕士.
[33]原艳英.物联光网的建设及其在智能家居中的应用[D].内蒙古大学,电子与通信工程,2014,硕士.
[34]孙宝.辽宁装备制造业技术创新生态位问题研究[D].辽宁大学,技术经济及管理,2012,硕士.
[35]董菲菲.薄壁钢圆管绕弯成形工艺的有限元数值模拟研究[D].湖南大学,材料工程,2012,硕士.
[36]潘陆平.急性高眼压对兔晶体上皮细胞的影响[D].山西医科大学,眼科学,2003,硕士.
[37]马雪娇.恋爱情境下女研究生群体女性气质的社会学分析[D].华中师范大学,社会学,2014,硕士.
[38]程岩.燃气发动机防爆关键技术研究[D].中国矿业大学,车辆工程,2014,硕士.
[39]彭笑.双性同体视域下的《金色笔记》[D].西北大学,英语语言文学,2013,硕士.
[40]李海桥.高速冲击问题的光滑粒子流体动力学的数值计算[D].中北大学,动力机械及工程,2014,硕士.
[41]介艺橙.成都置信房地产成本管理系统的设计与实现[D].电子科技大学,软件工程(专业学位),2013,硕士.
[42]石正义.我国高等学校法律地位研究[D].华中师范大学,教育管理,2003,硕士.
[43]应丹丰.不确定条件下基于双重供货模式的装配系统协同优化[D].华中科技大学,管理科学与工程,2012,硕士.
[44]王忠峰.非线性振动系统的分析方法及工程应用[D].辽宁工程技术大学,一般力学与力学基础,2012,硕士.
[45]肖飞.洪湖湿地结构与生态功能评价及系统稳定性研究[D].中国科学院研究生院(测量与地球物理研究所),自然地理学,2003,硕士.
[46]陈阳.电感耦合等离子体原子发射光谱法和原子吸收光谱法在药品质量控制中的应用[D].复旦大学,药物分析学,2012,硕士.
[47]龚岳.芳香族硝基化合物电化学还原机理的研究[D].安徽大学,分析化学,2014,硕士.
[48]张盈.A银行盈利模式案例分析[D].华中科技大学,工商管理,2013,硕士.
[49]郝忠华.父母婚姻质量对幼儿师范学校青少年性别角色的影响[D].内蒙古师范大学,心理健康教育,2013,硕士.
[50]李芳.升温对人胃癌紫杉醇耐药细胞株化疗敏感性的影响[D].苏州大学,外科学,2014,硕士.

相关推荐
更多