文本数据的生物信息学模型及在前列腺癌中的应用研究

文本数据的生物信息学模型及在前列腺癌中的应用研究

作者:师大云端图书馆 时间:2015-06-18 分类:论文格式 喜欢:2154
师大云端图书馆

【摘要】大量的生物文本为生物医学研究提供了丰富的资源。但由于文本数量巨大,无法通过人工处理来获取信息。文本挖掘能从现有的文献中自动地挖掘感兴趣的信息。借助于文本挖掘,可以从文献数据库检索需要的生物医学文本;这些非结构化的文本包含了大量的研究成果和实验数据,文本挖掘可以找出其中蕴含的重要信息和知识;在所发现的信息的基础上,研究人员可以进一步生成假设、进行推断和预测、指导实验和更深入的研究。癌症已经成为影响人类健康的主要恶性疾病之一,对癌症的预防、诊断和治疗是一个重要的研究热点。以文本形式存在的大量癌症相关的文献和实验数据为生物医学研究提供了宝贵的资料。许多研究者借助于文本挖掘在处理文本数据方面的优势,将癌症研究和文本挖掘相结合,使用文本挖掘技术发现新的知识,以促进生物医学的深入研究。本文综述了文本挖掘的各项子任务、一般处理流程、常用数据集和工具,介绍了目前文本挖掘在癌症中的应用研究,具体包括:1)介绍了文本挖掘的相关概念、各项子任务以及处理流程;2)细述了一些常用的文本挖掘工具和语料,分析比较了这些工具的优缺点和适用领域;3)分析总结了基于文本挖掘的癌症系统生物学研究常规流程;4)指出了文本挖掘存在的不足,面临的挑战,并针对性地提出了解决思路以供研究者参考。要从这些海量数据中挖掘信息,找出文本中包含的生物词汇是关键。命名实体识别的目的是从文本中识别出指定类型的实体名字,如基因、蛋白等。命名体识别是进一步挖掘信息的基础。从计算建模的角度来看,生物命名体识别可以看成是一个序列分割问题,得到了广泛的研究。然而,由于生物词汇在词汇构造、语法、词形、语义、上下文等多方面均有特殊性,因此,很多通用的命名体识别系统在识别生物词汇时表现不佳。在机器学习的方法中,支持向量机(SupportVectorMachine,SVM)在解决小规模的、非线性的、高维的问题时表现较好。SVM在关系提取、关系预测和模式识别等方面有着大量的应用。机器学习的另一种方法条件随机场(ConditionalRandomField,CRF)是为了解决最大熵马尔可夫模型中存在的标注偏置问题而引入的,是一种连续的优化最大熵模型。CRF擅长于解决序列标记问题。然而,在实际应用中,SVM和CRF具有很多不足和限制条件。SVM最初只适用于二分类问题而CRF可以用于多分类问题;虽然CRF通常需要较多的计算时间和空间,但很适用于解决序列数据的标记问题,具有较高的稳定性。通过分析发现,SVM和CRF具有一定的互补性,结合二者能相互促进,获得更好的结果。本文将生物命名体识别视为一个包含多个步骤的任务。首选确定候选的单词是否为一个生物单词;由于这个过程是一个二分类问题,因此可以使用SVM来很好地完成。如果判断的结果是一个生物单词,则再使用CRF来确定这个单词属于哪种类别。然后将SVM和CRF的结果进行合并,最后,利用一系列的算法进行修正。具体包括:1)根据生物单词的特性,使用所提出的2条规则,找出由于上下文的不同而造成不一致;2)提出了1条规则用于保证找出的词汇包含尽可能多的生物单词,并在此基础上提出了词汇长度最大化算法,以确保得到最完整的生物词汇;3)针对SVM和CRF结合后可能出现的结果不一致现象,提出了最大双向概率的方法以分析结果。双向概率包括了向前概率和向后概率两部分。向前概率给出了在前一个状态的基础上向前输出的各种情况的概率;向后概率给出了在后一个状态的基础上向后输出的各种情况的概率。本文取二者结合的最大值所对应的状态作为结果。本文在GENIA数据集和JNLPBA04数据集上分别进行了测试。多个评价指标均表明,结合SVM和CRF可以获得更好的效果。本文所提方法的基本思想是充分发挥CRF模型的稳定性并利用SVM长于二分类问题以改进CRF的效果。然而,由于SVM和CRF是两种不同的方法,简单将其组合起来使用可能会造成标记结果的不一致性。通过修正之后,可以改善该问题,从而在保证识别稳定性的前提下提高了识别效果。随着对生物问题研究的深入,人们逐渐认识到,复杂的生物功能和生命现象,是各种生物基本组成单位之间复杂相互作用的结果,不能简单地归结为生物分子个体的结构和功能。深入研究各种生物分子的相互作用网络从而理解生命功能是如何通过各种生物分子的相互作用实现的,是现代生物学的一个主要内容。强化学习方法是一种机器学习的方法。在强化学习的框架下构建作用网络,具有多个优势:1)作为一个复杂的疾病,癌症的生物分子作用网络是无标度的。使用强化学习的方法,agent反复尝试作用结对交互,奖赏和回报决定了哪些交互被强化,网络结构作为agent学习行为的动态性的结果出现。网络本身所具备的无标度特性会被保留。2)生物问题一个特点是具有未知性。癌症作为一种系统的、复杂的疾病,其中的一些机制还未被人们所了解。强化学习提出了一个未知随机环境中学习最佳行为的问题。使用强化学习的方法,保证网络收敛到一个最佳的稳定状态。3)使用具有开放性的强化学习方法,在建立网络的过程中无缝地与生物知识和生物数据结合。来自多个源的生物数据可以被用于构建网络,各种数据互为利用、取长补短,因此所建立的网络具有更高的可信度。使用强化学习框架,强化生物事实,而非随机构建网络,确保网络符合生物复杂网络的基本特性。在作用网络的环境下,如果单纯考量两个生物实体的单个作用关系而不考虑其他生物实体的影响,是不适合的。本文给出了一个综合影响的概念,用以衡量节点的交互的上下文环境中和网络环境下的相互影响力。综合影响包括了两个生物实体之间直接相互作用而产生的直接影响以及通过其他生物实体间接发生的间接影响。分析表明,综合影响更适合作用网络的环境。本文认为,综合影响越大,两个生物实体之间的相互作用就越强,该作用出现的概率也越高。基于生物网络的非随机性,本文提出了基于综合影响的网络熵的概念和相关计算方法来衡量网络信息流分布不规则性,以分析网络演化过程中的稳定情况。由于最终形成的作用网络并非随机网络而是具有稳定的拓扑结构,因此,所建立的作用网络的网络熵越小越好。本文采纳了强化学习的思想,在行动者-评论家算法框架下,提出了一种构建相互作用网络的算法。该算法以节点表示生物分子,边表示生物分子之间的作用。在网络演化的过程中,一个节点选择连接网络中的其他节点,代表一个生物分子选择网络中其他候选生物分子与之交互。每个生物分子在不同阶段都有不同的决策,并得到对应的网络熵。算法以当前网络状态下所有节点的平均奖赏作为判断条件,反复进行选择,不断迭代,最终演化形成一个最佳的网络。该网络是作为学习行为动态性的结果出现的。前列腺癌是最主要的高发性恶性肿瘤之一,也始终是生物研究者的关注热点。本文在PubMed的文本数据集上,利用所提出的方法,建立了一个前列腺癌的蛋白质相互作用网络,结果显示,本文方法所得到的效果较好。网络拓扑结构分析的结果也表明,本文方法所建立的网络的节点度分布符合无标度特性。最后,在本文主要方法的基础上,开发了一个生物文本挖掘系统。该系统包含文本检索、大规模文本自动下载、生物词汇识别、基于文本数据的生物相互作用网络构建以及网络可视化等主要功能。
【作者】朱斐;
【导师】沈百荣;
【作者基本信息】苏州大学,系统生物学,2013,博士
【关键词】生物信息;文本挖掘;前列腺癌;强化学习;蛋白质作用网络;

【参考文献】
[1]朱大明.建筑评论的基本要素[J].华中建筑.2003(02)
[2]张鹏军.高速公路管理不当致害民事责任探究[D].吉林大学,法学理论,2014,硕士.
[3]王莉丽.羟基磷灰石/氧化锆生物复合材料制备与性能研究[D].陕西科技大学,材料学,2014,博士.
[4]滕文君.三种激发子诱导的过敏性细胞死亡调控基因的筛选、克隆及功能研究[D].南京农业大学,植物病理学,2013,硕士.
[5]赵中华,鞠晓峰.技术溢出、政府补贴对军工企业技术创新活动的影响研究——基于我国上市军工企业的实证分析[J].中国软科学,2013,10:124-133.
[6]阮叶萍.江浙蝮蛇毒镇痛组分药理学及其机理研究[D].浙江中医学院,中药学,2003,硕士.
[7]温馨颖.《人民日报海外版》体育新闻报道中的宣传特征研究[D].北京体育大学,体育人文社会学,2013,硕士.
[8]唐辉.全水润滑阀配流液压泵的研究[D].华中科技大学,机械电子工程,2013,硕士.
[9]付永亮.名画元素在企业品牌构建中的应用与研究[D].湖北工业大学,设计艺术学,2013,硕士.
[10]刘璐莎.CdTe量子点及药物与蛋白质相互作用的光谱学研究[D].西北大学,制药工程(专业学位),2012,硕士.
[11]吴蕾,鲍雨梅,张冬明.HA/ZrO_2复合涂层销盘磨损试验及仿真[J].轻工机械,2013,02:82-85+88.
[12]陈玉萍.智能视频监控中运动目标检测和跟踪的研究及改进[D].安徽大学,计算机技术,2014,硕士.
[13]郑佳.城市干线信号双交叉口优化设计及其评价问题研究[D].北京交通大学,2014.
[14]闫敬婷.城乡医疗保险制度公平性研究[D].山西财经大学,社会保障,2014,硕士.
[15]黄永生.基于特征匹配检测功能的入侵检测系统的设计与实现[D].安徽大学,计算机技术,2013,硕士.
[16]张霞.导学案在生物课堂中的教学研究[D].内蒙古师范大学,教育(专业学位),2013,硕士.
[17]李斌.雄激素受体第一外显子CAG重复序列长度多态性与子宫平滑肌瘤遗传易感性的相关性研究[D].第四军医大学,病理学与病理生理学,2004,硕士.
[18]李斌.基层政权与乡村社会关系结构的变迁——建国以来[D].上海师范大学,政治学理论,2004,硕士.
[19]刘超超.一株抗真菌抗生素菌株的鉴定及发酵工艺优化[D].浙江大学,生物化工,2013,硕士.
[20]文山,李葆青.基于小波分层的多方向图像边缘检测[J].自动化学报,2007,05:480-487.
[21]杨宁.邱志杰“总体艺术”实践与理论的相关探讨[D].华中师范大学,美术学,2014,硕士.
[22]史磊.中国老挝土地使用权初始取得制度比较研究[D].内蒙古大学,民商法学,2014,硕士.
[23]黄树森,宋瑞,陶媛.大城市居民出行方式选择行为及影响因素研究——以北京市为例[J].交通标准化,2008,09:124-128.
[24]刘何心.糖尿病本体的构建与检索研究[D].吉林大学,情报学,2014,硕士.
[25]薛亮,关新平,袁亚洲.无线传感器网络中事件驱动的能量均衡多流聚合路由算法[J].控制与决策,2012,02:227-231.
[26]韩文福.中比转数混流式水轮机尾水管压力脉动特性研究[D].哈尔滨工业大学,动力工程,2014,硕士.
[27]盛仁磊.煤炭销售管理系统的设计与实现[D].西安科技大学,电子与通信工程,2014,硕士.
[28]唐曦.大学生参与志愿服务的长效机制构建[D].宁波大学,公共管理(专业学位),2013,硕士.
[29]杨卫兵.小麦多胺和乙烯合成对水分亏缺的响应及其与籽粒灌浆特性的关系[D].山东农业大学,作物栽培学与耕作学,2014,博士.
[30]杨晓星.城市低洼地的开发与利用[D].天津大学,风景园林,2013,硕士.
[31]唐华风,赵密福,单玄龙,王璞珺.松辽盆地营城组火山地层单元和地震地层特征[J].石油地球物理勘探,2012,02:323-330+186.
[32]徐杰.嵌入式超声数据采集与处理系统[D].中国科学院研究生院(长春光学精密机械与物理研究所),机械电子工程,2013,硕士.
[33]陈炯军.当前地方财政收入可持续增长的对策研究[D].吉林大学,公共管理,2012,硕士.
[34]刘心报.GDSS环境下的群体推理方法及群体层次分析法研究[D].合肥工业大学,2002.
[35]闫永红.西天山群吉萨依铜矿床形成背景与成矿特征研究[D].中国地质大学(北京),矿物学、岩石学、矿床学,2013,硕士.
[36]赵甜甜.托马斯·阿奎那《论存在者与本质》中的本质学说研究[D].华中科技大学,宗教学,2013,硕士.
[37]严文燕.含有沉浸项的双尺度多孔介质LCM的数值模拟[D].武汉理工大学,应用数学,2012,硕士.
[38]刘建明.唐前文学中的庄子阐义[D].江西师范大学,文艺学,2004,硕士.
[39]蒋跃明.乙肝病毒系统发育关系构建与碱基替换形式趋异研究[D].复旦大学,遗传学,2013,博士.
[40]姚正晓.酶法制备天然牛奶风味基料及牛奶香精的研究[D].广西科技大学,生物化工,2013,硕士.
[41]王景茹.短距离速度滑冰弯道技术训练创新分析[J].长春教育学院学报,2014,06:72+74.
[42]王芳红.CD147和MMP-9在胆囊癌及癌前病变组织中的表达[D].郑州大学,外科学,2013,硕士.
[43]柳坤.金融危机以来美国贸易中的政府管制行为分析[D].中共江苏省委党校,行政管理,2013,硕士.
[44]田蕙.中央地质勘查基金合作项目权益比例确定方法改进研究[D].中国地质大学(北京),公共管理,2013,硕士.
[45]程波.认知OFDM信号旁瓣抑制算法研究[D].北京交通大学,通信与信息系统,2013,硕士.
[46]黑鑫东.脉冲分数阶系统的稳定性[D].安徽大学,应用数学,2014,硕士.
[47]林煜.基于WebService的汕头人才人事管理系统设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[48]王亮.永磁同步定浆距风电新型主控系统开发[D].北方工业大学,电力电子与电力传动,2014,硕士.
[49]孙标,冯浩,刘国安.前馈神经网络的增广PIDBP学习算法[J].冶金自动化,2003,S1:309-311.
[50]杨苹,陈武.基于自组织模糊神经网络的汽轮发电机组振动故障诊断系统[J].电力系统自动化,2006,14:66-70.

相关推荐
更多