基于肿瘤基因表达谱数据的特征提取方法
【摘要】随着信息学和生物医学的迅速发展,基因表达谱数据的获取变得越来越容易,且获得的数据具有很高的准确性。近年来,研究人员已成功地将生物医学问题转化为模式识别问题,其典型应用之一就是将基因表达谱应用于基因分析,挖掘出导致癌变的基因,从而准确地辨别别出癌变肿瘤种类。谱数据挖掘可以帮助研究人员发现新的肿瘤类型,提高复杂疾病诊断的准确率;但肿瘤基因表达谱数据具有样本小、噪声大、维数高等特点,直接使用数据进行肿瘤特征提取与识别是不可行的。很多传统的数据处理方法已经无法满足处理高维基因表达谱数据的需求,因此在数据处理前须对谱数据进行降维处理,获得最优特征的同时尽量舍弃部分冗余信息,以降低谱数据维数和系统复杂性。本文基于生物学理论和谱论理论,将模式识别与流形学习等相关算法运用于肿瘤基因表达谱数据分类中。通过构建相应的特征空间,使得无结构信息的基因表达谱数据序列,变成具有结构信息的图结构;再通过谱图理论对基因表达谱数据进行特征提取,并对实验结果和算法的鲁棒性给出合理的解释和分析,其主要内容如下:1.提出在非负矩阵分解之中引入LoG权值矩阵,并应用于基因表达谱数据分类,LoG权值矩阵的算法思想是在原有的高斯函数的基础上加入Laplace算子,从而克服了传统的高斯函数无法充分利用样本的类内和类间信息。该实验首先对肿瘤基因表达谱数据进行数据降维,然后根据LoG算法构建权值矩阵,将高维基因表达谱数据映射为空间中的点,再经SVD分解后得到能够表征肿瘤样本类别的指示向量;再通过NMF对数据进行非负分解,得到能够反映样本类别信息的低维特征向量,最后采用分类器对特征进行分类。2.针对传统最大间隔准则(MMC)算法在数据特征提取中存在的不足;本实验将最大间隔准则与Laplace算子及递归特征消除思想相结合,提出了一种基于Laplace最大间隔准则的肿瘤特征提取方法;并运用于肿瘤基因表达谱数据分类之中。新算法以寻找谱数据空间中类间散布与类内散布之差最大化为准则,寻求最佳鉴别矢量用于投影变换后的特征提取;然后对特征排序后分数最低的基因进行递归消除,最后定位出具有最大调控概率的信息基因,在对已有的三组肿瘤样本数据集的实验中,验证了本算法的有效性。3.针对传统的局部线性嵌入算法(LLE)中近邻域的选择仍存在人工依赖性。本实验提出了一种自适应的近邻选择算法,将高斯核技巧引入到肿瘤识别之中,并结合样本的类别信息,为样本自动设置合理的近邻,很好地解决了邻域选取问题。其思想是在样本点和它的近邻样本点之间构建局部线性平面时,能够自动选择近邻域,并以此建立优化算法;即任一个样本均可由其近邻域样本重构而来,且样本重构后的线性重构误差最小。最小重构误差能够使数据在旋转、平移和缩放时保持不变,从而使实验具有较高的鲁棒性。
【作者】许鸿洋;
【导师】王年;
【作者基本信息】安徽大学,信号与信息处理,2014,硕士
【关键词】基因表达谱;局部线性嵌入;维数简约;高斯核;
【参考文献】
[1]赵配影,曹晓英.构建高校图书馆读者体验平台[J].农业图书情报学刊,2015,04:113-115.
[2]李奇奇.国有风险投资机构对VIE架构企业投资问题研究[D].首都经济贸易大学,工商管理(专业学位),2013,硕士.
[3]杨环宇.非常态事件下高速公路路网交通运行状态评价方法研究[D].吉林大学,交通信息工程及控制,2014,硕士.
[4]翟永胜.条带深旋及不同施氮量下高产春玉米增产增效机理[D].内蒙古农业大学,作物栽培学与耕作学,2013,硕士.
[5]郭俊鹏.基于客户关系管理的航空公司营销管理研究[D].西北工业大学,2005.
[6]韦闯.ATP优秀选手三种场地类型发球特征与效果研究[D].沈阳师范大学,体育教育训练学,2014,硕士.
[7]周红艺,梁思,曾思思,雷双健.Fe_3O_4稳定化纳米Pd/Fe对水中2,4-D的催化还原脱氯研究[J].环境科学,2013,11:4311-4318.
[8]施茜.基于情感的音频相似度模型与检索方法[D].华中科技大学,计算机软件与理论,2013,硕士.
[9]刘喜峰.基于ZigBee的嵌入式冷藏车环境远程监测系统设计[D].甘肃农业大学,农业电气化与自动化,2013,硕士.
[10]李骥,张洪钺.用神经网络估计模型误差的预测滤波算法[J].控制与决策,2005,02:183-186.
[11]王后.气凝胶热导率计算[D].南京大学,电子与通信工程(专业学位),2013,硕士.
[12]刘芮彤.我国大型体育场馆经营管理问题的研究[D].山东大学,公共管理(专业学位),2013,硕士.
[13]夏超.基于神经网络的永磁同步电机直接速度控制[D].哈尔滨工业大学,电气工程,2014,硕士.
[14]李建军.苎麻木质素形成的相关酶类研究以及RAPD分析[D].湖南农业大学,作物遗传育种,2004,硕士.
[15]于娜,丛红璐,刘雪华,吕金钟.物理教学与演示实验的契合[J].产业与科技论坛,2015,05:153-154.
[16]林韧.造血干细胞移植后感染相关并发症及供受者基因多态性与预后的分析[D].南方医科大学,内科学,2012,硕士.
[17]徐明.朱熹《论语集注》研究[D].扬州大学,古代文学,2011,硕士.
[18]吕素云.物象·传统·创生[D].山东师范大学,中国现当代文学,2013,硕士.
[19]韩斌,吴铁军,杨明晖.基于属性选择的因果网络多传感器融合系统[J].控制与决策,2002,06:881-885.
[20]姜坚华.客运专线地面信号系统综合一体化方案探讨[J].铁道通信信号.2008(06)
[21]孙楠.深圳“地铁+物业”商业开发模式研究[D].西南交通大学,工商管理(专业学位),2014,硕士.
[22]龚文龙.基于最小二乘支持向量机的短期负荷预测[D].湖南大学,电气工程,2014,硕士.
[23]孙梅.移动信息化在铁路行业生产管理的设计与实现[D].内蒙古大学,工商管理,2012,硕士.
[24]孟秀梅.清末民初蒙旗矿产开发若干问题研究[D].内蒙古大学,专门史,2014,硕士.
[25]朱文莉.企业并购交易定价问题研究[D].北京交通大学,2013.
[26]刘蓉.基于物联网的工业设备诊断与维护系统的设计与实现[D].北京交通大学,软件工程(专业学位),2013,硕士.
[27]陈曙娟.双金属片自动分选线研制[D].南京理工大学,机械工程,2013,硕士.
[28]郑若时.聚吡咯纳米球及聚吡咯复合导电聚合物的制备与性能研究[D].清华大学,材料科学与工程,2012,硕士.
[29]王朋.大型挖泥船用回转支承轴承性能研究[D].浙江海洋学院,农业推广(专业学位),2013,硕士.
[30]贾芳.幼儿园教育的特点[D].内蒙古师范大学,教育(专业学位),2013,硕士.
[31]焦子云.太阳能湖泊净化装置的可持续设计研究[D].湖北工业大学,设计艺术学,2014,硕士.
[32]韦路,胡雨濛.基于本土语境的传播研究:对话与交锋——首届长三角青年传播学者论坛综述[J].新闻记者,2014,02:89-92.
[33]李群.λ-有理Sturm-Liouville问题的谱[D].曲阜师范大学,应用数学,2013,硕士.
[34]傅一帆.目标规划算法的映射变换形式[J].自动化学报,1984,04:304-310.
[35]段文燊,张海彦,段文兵.CGG地震资料解释工作站的开发应用[J].石油地球物理勘探,1999,S1:65-70+149.
[36]路金蓉,周洋,李海燕,郑涌,李世波,黄振莺.Cu/Ti_3SiC_2体系润湿性及润湿过程的研究[J].无机材料学报,2014,12:1313-1319.
[37]崔辰.美国超级英雄电影研究[D].上海戏剧学院,戏剧戏曲学,2014,博士.
[38]齐彬,张文忠.国内高校英语教学中思辨性阅读能力培养研究20年述评(1994-2013)[J].高等教育研究学报,2014,01:90-95.
[39]蔡婵.基于TAM的可视电话使用意愿影响因素研究[D].复旦大学,项目管理,2012,硕士.
[40]侯祥英.新型蜂窝结构槽式熨平机槽板的设计与研究[D].东华大学,机械工程(专业学位),2014,硕士.
[41]李治涛.基于过零检测器的流水线式ADC的研究[D].北京交通大学,微电子与固体电子学,2013,硕士.
[42]李超.钛基块体非晶复合材料组织及力学性能的研究[D].兰州理工大学,先进材料及其制备技术,2013,硕士.
[43]蔡夏英,李惠强.微隙动配合技术在内燃机上的应用[J].城市公用事业.2001(06)
[44]赵玥.基于复合核函数支持向量机的模拟电路故障诊断[D].东北大学,电工理论与新技术,2010,硕士.
[45]王蕊.论英语词汇呈现阶段语义图的构建[D].河北师范大学,学科教学,2012,硕士.
[46]阳涛.直流无刷电机智能控制系统的研究与实现[D].湖南大学,控制工程,2011,硕士.
[47]邱龙龙.绝经后骨质疏松症肾阴虚证相关基因CLCF1表达的研究[D].福建中医药大学,中医骨伤科学,2013,硕士.
[48]吴宪.拟南芥干旱诱导型启动子的克隆及功能分析[D].吉林大学,植物病理学,2013,硕士.
[49]胡鹏飞.塔河油田碳酸盐岩缝洞型储集体成像技术研究[J].石油地球物理勘探,2009,02:152-157+124-125+255.
[50]李津.基于供应链管理的佛斯伯(天津)公司采购管理优化研究[D].天津大学,工商管理,2013,硕士.

- 下一篇: NPC三电平逆变器中点电位的控制方法研究
- 上一篇: 基于MPS的自动化综合实验系统设计