基于全经验信息累计比率的可加模型变量选择 08月16日
【摘要】本文提出了一种在可加模型中基于数据的变量选择方法,该方法是通过样条估计来实现的.回归模型的可加性能够很好地克服“维数祸根”的问题,而样条估计可以对可加模型中的每个部件进行很好的逼近.在此基础上,利用每个部件的经验信息量对它们排序,这样重要变量的选择就可以通过一个提前设定的阈值与每个部件的全信息累计比率(CUREST)之间的比较来实现.文章在理论上证明了该方法的一致性.大量的蒙特卡洛研究也证 […]
高维数据变量选择的几点研究 12月12日
【摘要】变量选择是高维数据分析的一个重要研究问题,而对似然函数加一个惩罚项是近些年使用最为广泛的变量选择方法。惩罚似然方法的提出始自上世纪六七十年代,但直到上世纪九十年代,统计学家才开始系统地研究惩罚似然方法的理论性质,其中研究较多的是线性模型和广义线性模型。针对具有重要实际应用背景的生存分析模型鲜有突破性的理论性质,其中的困难主要来源于生存分析数据的删失特征。本论文的一部分内容是针对生存分析模型 […]
稳健变量选择方法的若干问题研究 12月02日
【摘要】变量选择是统计建模的一项基础而重要的工作,我们希望一个好的统计模型应该只包含那些少数的与响应变量真正相关的协变量,以达到比较好的预测效果。另一方面,我们希望变量选择方法是稳健的,尤其是当数据中存在异常值时,变量选择的结果不至于受到很大影响而变得不稳定。本文的研究目的是对纵向数据或者更加复杂的高维带有删失的数据,提出一系列稳健的变量选择方法。本文的主要结果和创新之处在于:第一,我们介绍纵向数 […]
若干多元统计模型的适应性统计推断 08月20日
【摘要】回归分析是研究自然科学、工程技术以及社会经济发展规律的重要工具.回归模型是研究几个(随机)变量之间关系的一种重要的统计方法。一般地,回归模型包括参数回归模型、非参数回归模型和半参数回归模型等。近年来,非参数模型和半参数书模型受到越来越多统计学者的关注。众所周知,如果假设的参数模型结构不正确,将会导致错误的结论。为了减少模型的偏差,人们采用非参数的方法来估计模型内在的函数结构。非参数回归模型 […]
基于OECD准则对QSAR/QSPR模型几个重要问题的研究 07月07日
【摘要】摘要:本论文研究主要根据国际经济合作与发展组织(OECD)准则的要求,对定量构效关系(QSAR/QSPR)建模中的几个重要问题进行了研究;此外,对大规模分子结构数据库的生物标识亦进行了初步探索研究。本论文第一章首先阐述了OECD准则的内容及其对QSAR/QSPR研究的重要指导意义。然后,基于OECD准则要求,提出QSAR/QSPR建模中需要研究的几个重要问题,分别为提高QSAR/QSPR模 […]