中文文本挖掘基本理论与应用 08月06日
【摘要】文本挖掘的应用前景十分广泛,中文文本较西方语言文本有其独特性,本文研究的对象是中文文本。此文首先对文本挖掘的背景和发展简要综述,并介绍中文文本挖掘的概念和流程,其中重点介绍了特征的提取、降维及分类算法。介绍了R中文本挖掘相关的包,以及CHQ’S文本多分类系统,并应用此系统对文档进行分类。本文重点是借助被广泛应用的开源工具构建自己的中文文本挖掘系统。根据中文文本挖掘的流程,详细的描述了自己对 […]
中文短文本分类技术的研究与实现 07月26日
【摘要】文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方 […]
基于学术社会网络特征的专家搜索算法 10月05日
【摘要】目前,学术的发展日新月异,学术活动和交流也日益频繁,文献的数量急剧膨胀,在大量的文献和学者数据等异构的学术数据中高效准确地搜索到用户所需要的学术专家信息来用于学术的研究,这是一个新的课题,专家搜索也正是基于此提出的,并且学术专家搜索也渐渐地成为了研究者所关注的一个新热点。现有常用的专家搜索是依赖于文本的文献检索,这种检索方法通过用户输入查询词搜索相关的文献。一般无法直接判断文献的作者是否为 […]


