生物序列数据K-mer频次统计与可视化研究

生物序列数据K-mer频次统计与可视化研究

作者:师大云端图书馆 时间:2022-10-06 分类:参考文献 喜欢:1758
师大云端图书馆

【摘要】随着近些年来测序技术的飞速发展,人类产生了海量的生物序列数据,亟需通过有效的计算手段进行分析和处理。而在众多的生物序列分析与处理问题中,生物序列数据的k-mer频次信息是一种非常关键且重要的序列特征,它在序列比对、序列拼接、序列聚类、模体发现等诸多的问题上得到了广泛的应用。面对大规模数据,k-mer频次统计的算法以及其可视化问题就显得至关重要,本文就围绕着这两个方面进行研究,其主要内容和贡献包括:(1)k-mer频次统计算法研究按照k-mer频次的计数方式,该问题可以分为两类:全序列k-mer频次统计、序列间k-mer频次统计。对于全序列k-mer频次统计问题,本文先对有限内存和磁盘空间限制下的DSK算法进行了分析,该算法主要存在磁盘I/O开销过大。对于同样规模或更大规模的问题,云计算平台可以减少各节点的磁盘I/O开销,因此,我们对DSK算法进行了适用于MapReduce云计算框架下的并行化改造,提出了PDSK算法。理论分析及实验结果表明,PDSK算法能够对数据进行均匀划分,减小各个节点的磁盘I/O开销,提高全序列k-mer频次统计的效率。对于序列问k-mer频次统计问题,通过对传统的基于前向遍历的FTKC算法进行改进,我们提出了新的基于逆向遍历的k-mer频次统计算法BTKC。该算法能够利用k+1长度的k-mer频次统计结果,推导出k长度的统计结果,从而避免了统计每一长度的k-mer频次结果时均需要对所有序列重新遍历。算法时间复杂度分析及实验结果表明,相比于传统FTKC算法,BTKC算法性能提升明显,非常适合于k-mer长度有一定连续变化范围的情况下使用。(2)k-mer频次可视化软件的设计及应用当前生物信息学的软件和应用中,一直缺乏一款专门对生物序列的k-mer频次信息进行多维度多层次的统计与分析的可视化软件,因而我们设计了专门针对生物序列数据k-mer及k-mer频次在横向和纵向进行可视化展示的软件。该软件包括序列下载、序列格式转换与解析、序列数据k-mer频次统计、k-mer频次可视化展示等功能。并提供了两个适用于该软件的典型应用,分别是模式串的查找与频次展示、扩展的序列Logo图生成。
【作者】张鑫鑫;
【导师】徐云;
【作者基本信息】中国科学技术大学,计算机软件与理论,2014,硕士
【关键词】生物信息学;k-mer;k-mer频次统计;k-mer可视化;

【参考文献】
[1]王贤杰.互联网企业并购绩效研究[D].首都经济贸易大学,会计学,2013,硕士.
[2]孙业鹏.盐碱胁迫下羊草转录组测序及分析[D].吉林农业大学,生物化学与分子生物学,2012,硕士.
[3]王文学.行销通药业项目人力资源管理设计方案[D].电子科技大学,项目管理(专业学位),2012,硕士.
[4]郝帅.冯文慈古代乐律学研究成果之研究[D].中国音乐学院,音乐学,2014,硕士.
[5]张立新.大遗址区人地系统脆弱性及其影响机制研究[D].西北大学,人文地理学,2014,硕士.
[6]何隆运.地震复合波地质属性的研究方法[J].石油地球物理勘探,1992,05:681-687+692+694.
[7]罗文.论通信电源系统谐波治理与节能降耗[D].南京邮电大学,电子与通信工程(专业学位),2012,硕士.
[8]宋远红,姜巍,孙继忠,王友年.微电子与等离子体技术的基础及应用研究[J].国际学术动态,2011,06:20-22.
[9]黄继城.废HDPE聚合物添加剂及沥青混合料技术性能研究[D].长安大学,道路与铁道工程,2013,硕士.
[10]薛杨柳.贴片类芯片缺陷检测识别的研究[D].湖北工业大学,机械电子工程,2014,硕士.
[11]孟子卜.铜绿假单胞菌上清液诱导J774细胞凋亡过程中Fas和FAP-1蛋白表达[D].辽宁医学院,内科学,2012,硕士.
[12]高敏.论林语堂版《浮生六记》中文化负载词的英译[D].武汉理工大学,外国语言学及应用语言学,2012,硕士.
[13]王宏涛.极小纳米团簇堆垛结构研究[A].国家自然科学基金委员会数理科学部、中国力学学会.第五届全国固体力学青年学者研讨会会议日程摘要集[C].国家自然科学基金委员会数理科学部、中国力学学会:,2012:1.
[14]张伟杰.电机架悬在地铁动车中的可行性研究[D].西南交通大学,车辆工程,2013,硕士.
[15]于晓洋.基于芳香多羧酸或杂多酸的配位化合物的合成、结构与性质研究[D].东北师范大学,无机化学,2014,博士.
[16]陈秀菊1,彭捷2,3,白新鹏2,3*,贾延勇2,3,苏娜2,3,林晓虹2,3.椰子油在温度梯度场中定向结晶动力学研究[J].食品科学.
[17]卿珊.基于RFID手持巡检终端的系统设计与实现[D].广东工业大学,模式识别与智能系统,2014,硕士.
[18]曾小华.CRM在海南汽车试验研究所的应用研究[D].重庆大学,2005.
[19]苏立江.昆钢6号高炉工艺技术装备的特点[J].炼铁.2002(S1)
[20]李淑娴.城市自助旅游者消费行为研究[D].华侨大学,地理学,2014,硕士.
[21]刘佳婧.切换时滞正系统的稳定性分析[D].山西师范大学,运筹学与控制论,2013,硕士.
[22]魏晨阳.镇原油田镇277井区延10油藏沉积相与储层特征研究[D].西北大学,矿产普查与勘探,2013,硕士.
[23]李艳.中药泡足联合足部按摩对0级糖尿病足周围血管病变影响效果的临床研究[D].浙江中医药大学,临床护理学,2014,硕士.
[24]王字举.失神发作相关的特发性全面性癫痫综合征临床分析[D].吉林大学,临床医学,2014,硕士.
[25]张媛媛.我国职业教育法的内容改进研究[D].沈阳师范大学,教育经济与管理,2013,硕士.
[26]张素君.探讨交替传译译语流利性的缺乏[D].上海外国语大学,翻译,2014,硕士.
[27]刘国雄,余章坤.电信运营商产业链调整策略研究[J].现代电信科技.2007(06)
[28]达日吉.藏传佛教之“膜拜”观及其现象研究[D].西藏大学,藏语言文学,2014,硕士.
[29]侯雪岩.严羽对前后七子诗学观的影响[D].辽宁大学,文艺学,2012,硕士.
[30]刘力源.地铁多媒体信息系统的视频控制子系统研究[D].北京交通大学,电气工程,2012,硕士.
[31]刘进军.海明威小说的语言特色新探[D].吉林大学,比较文学与世界文学,2004,硕士.
[32]金剑.多元数据在策勒县玉龙地区遥感成矿预测中的应用[D].中国地质大学(北京),环境与资源遥感,2013,硕士.
[33]刘纲华.苯醚甲环唑在几种果蔬中的残留降解行为研究[D].湖南农业大学,环境工程,2012,硕士.
[34]江炜昌.基于RFID的毛织品生产管理系统设计[D].华侨大学,计算机技术(专业学位),2013,硕士.
[35]徐舜开.碳纳米管及TiO_2复合材料对三氯苯的吸附与再生研究[D].湖南大学,2010.
[36]冯月娇.含锂化铣液对化铣铝合金性能影响的研究[D].沈阳航空航天大学,材料学,2013,硕士.
[37]郝巍,李兴源,金小明,吴小辰,颜泉,李峰.直流输电引起的谐波不稳定及其相关问题[J].电力系统自动化,2006,19:94-99.
[38]陈方华.房地产行业中的客户关系管理研究[D].华中科技大学,2004.
[39]黄清宝.基于工业以太网的专家控制[D].广西大学,控制理论与控制工程,2004,硕士.
[40]谢杨彪.塑机螺杆电磁加热器研究与开发[D].浙江海洋学院,农业推广(专业学位),2013,硕士.
[41]常春雷.留言分发系统平台及其语博设计与实现[D].北京交通大学,2014.
[42]谢绍白.过程体裁教学法在英语专业写作教学中的应用研究[D].西北师范大学,英语语言文学,2013,硕士.
[43]谭乐.以社会主义核心价值体系引领高校校园文化建设路径研究[D].湖南师范大学,思想政治教育,2013,硕士.
[44]薛俊美.关联理论视角下的汉语新词语英译[D].西北大学,英语笔译(专业学位),2014,硕士.
[45]周宇,佟丽华,过志伟,徐文烨,曹荣云.邯钢薄板坯连铸连轧的主传动系统[J].冶金自动化,2001,05:34-39+70.
[46]李明涛.基于IFC和CityGML的建筑空间信息共享研究[D].北京建筑大学,建筑与土木工程,2013,硕士.
[47]牛文杰,杨钦.超大数据体泛克里金插值的研究[J].石油地球物理勘探,2001,06:112-111+110-109+108-107+106-105+0.
[48]贾宁.新型纳米微囊-VEGF复合体转染鼠成纤维细胞的体外试验研究[D].第四军医大学,外科学,2004,硕士.
[49]孙立.碳/碳复合材料磁电阻特性研究[D].清华大学,材料学,2002,硕士.
[50]孙成林.论庞德法学理论中的系统论方法[D].南京师范大学,法学理论,2012,硕士.

相关推荐
更多