首页

特征选取和SVM算法研究及在股市行业资讯中的应用 03月03日

【摘要】在信息化时代的今天,随着存储容量的翻倍增长和网络通讯速度的不断提高,海量文本信息的传输和保存已变得异乎平常。很显然的是传统的信息获取技术早已跟不上时代的步伐,如何在信息高速膨胀的文本数据库中及时地检索到我们想要的文本信息问题显得日益突出。文本挖掘也正是为解决这一需求而在近些年得到了迅猛的发展。文本挖掘涉及文本聚类、文本分类、信息提取等多个方面,其中文本分类是当前数据挖掘研究领域的热点内容之 […]

【论文下载 - 中国知网/万方数据/维普/读秀/超星/国研/龙源/博看等资源库】

中文文本挖掘基本理论与应用 08月06日

【摘要】文本挖掘的应用前景十分广泛,中文文本较西方语言文本有其独特性,本文研究的对象是中文文本。此文首先对文本挖掘的背景和发展简要综述,并介绍中文文本挖掘的概念和流程,其中重点介绍了特征的提取、降维及分类算法。介绍了R中文本挖掘相关的包,以及CHQ’S文本多分类系统,并应用此系统对文档进行分类。本文重点是借助被广泛应用的开源工具构建自己的中文文本挖掘系统。根据中文文本挖掘的流程,详细的描述了自己对 […]

中文短文本分类技术的研究与实现 07月26日

【摘要】文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方 […]

GPU通用计算在文本分类中的应用研究 10月30日

【摘要】随着互联网技术的快速发展,人们日益普遍地使用计算机来生产、处理、交换和传播各种形式的信息,世界对信息的需求快速增长,而文本是承载信息的主要载体,文本分类技术也越来越受到人们的关注。文本分类问题是将一篇未知类别的文档归入预先定义的类别中,而文本的自动分类则是使用计算机来实现这样的分类。文本分类可以更好的帮助人们组织文本、挖掘文本信息,文本分类技术也成为信息处理领域最重要的研究方向之一。虽然人 […]

中文文本自动分类的应用研究 06月30日

【摘要】时代的飞速进步,信息技术的快速发展,信息获取的途径多样化、信息的表现形式多元化、信息容量的膨胀化,特别是网络上电子图书、电子信息等海量的电子资源,给予我们搜取信息极大地便利性,但同时也带来一个严峻的问题。怎样才能从如此庞大的信息库中准确快速的获取我们所需要的信息就是亟需解决的问题。目前,文本分类技术以其实用性受到了研究者的关注。文本分类也成为当前热门的研究课题之一。本文首先概述了中文文本分 […]

文本分类中特征选择和分类算法的研究 03月22日

【摘要】近些年来,在信息技术和互联网的高速发展下,电子文本信息的数目迅速增长。人们可获得的信息越来越多。然而由于信息的杂乱无序,人们很难在浩瀚的数据中找到真正需要的信息。面对我们常说的“信息发达,知识贫乏”这样的局面,如何尽最大可能对这些信息进行有效的组织和管理成为信息处理研究中重要的研究之一,文本分类技术就是解决这一问题的有效方法。能够帮助人们非常高效并且准确的定位文本信息,为用户取得需要的信息 […]

基于实例迁移学习的文本分类研究 03月22日

【摘要】随着互联网技术的不断成熟,各种各样的资源以各种形式出现在网络中,而资源中蕴含的信息则开始呈现爆炸性增长。如何从这些海量信息中寻找那些人们所需要的信息自然而然地成为了让人们困扰不已的问题,数据挖掘技术作为解决这个问题的答案自然而然地受到了人们的追捧,自出现伊始就成为了学者们研究的热点问题。而在这些数量惊人的信息中,有相当一部分信息是以文本的形式储存的,而文本分类作为文本挖掘的一个重要应用也不 […]

基于KNN的文本分类特征选择与分类算法的研究与改进 12月04日

【摘要】随着信息技术的迅猛发展和日益普及,文本信息呈现指数级增长。文本分类作为管理大量信息的重要技术,能有效地解决信息混杂的难题,同时能够让用户更准确地检索信息,在信息过滤与检索、邮件分类和话题跟踪等方面有很高的应用价值,是数据挖掘领域的热点技术。本文以提高KNN分类器性能为主要目标,简要阐述文本分类定义、文本预处理、特征选择、特征加权、分类方法和分类性能评估等,并且针对特征选择、特征加权、分类方 […]

基于改进TANC的机器学习文本分类方法研究 08月13日

【摘要】随着计算机的兴起及飞速发展,人们从计算机中得到的数据不断扩大。有效的对数据进行分类、从中得到对用户有用的信息是提高工作效率以及对数据进行管理的关键。文本分类中的数据一般具有规模大、复杂性高及变量多等特点。当采用传统的方法对数据进行处理时,一般都是凭借经验而得到,但是经验知识有限,这就使得数据分类的结果产生偏差,限制了数据分类在实际生活中的应用。而基于机器学习的文本分类算法,既不需要建立复杂 […]

概率数据检索、挖掘及多层文本分类问题的研究 12月31日

【摘要】数据检索与挖掘是一门不断发展的综合性交叉学科,涉及数据的存储、索引、检索、查询以及分析等多个方面。本文主要针对其中的三个重要问题进行了研究,主要内容和结论可以归纳如下:第一,研究针对概率空间数据的文本检索技术。不间断地跟踪、分析了Twitter数据在地理位置上和时间上的分布特征,发现存在大量空间文本检索的请求。从2011年11月至2012年5月,连续地收集带有地理位置标签的Twitter数 […]