基于BTM主题模型特征扩展的短文本相似度计算 06月04日
【摘要】随着因特网和各种移动终端的发展,计算机对各种文本类信息处理的重要性日益凸显。短信、微博、电子商务的普及更使得用简短的文字表示信息越来越重要。每天TB级数据的产生,标志着大数据时代的来到。从简单的文本中挖掘舆论倾向,从商品评论中挖掘消费心理,短文本的挖掘有助于帮助政府更贴近了解民意倾向,帮助企业更好的了解用户需求。然而,短文本不像长文本那样具有丰富的语义特征,语义和特征矩阵的稀疏特性导致难以 […]
基于Nutch的食品安全信息垂直搜索引擎研究 04月02日
【摘要】互联网信息过载导致人们越来越倚重搜索引擎,面向特定领域或学科的垂直搜索引擎是搜索技术的细化和拓展,它针对特定用户提供垂直搜索。当前在食品安全领域,食品安全信息的获取基本靠百度谷歌等通用搜索引擎查询,无法满足用户对于快速、准确查找信息的需求。针对食品安全主题为用户提供查询的相关研究还不是很多。本文针对通用搜索引擎不能满足用户对于食品安全信息领域的问题,研究设计基于食品安全信息主题的垂直搜索引 […]
基于维基百科的中文跨文本指代消解研究 06月30日
【摘要】作为信息抽取和信息融合的重要组成部分,跨文本指代消解的研究受到了广泛重视。跨文本指代消解的主要任务是解决实体的多名问题和重名问题,前者是指一个实体具有多个名称,而后者是指不同的实体具有相同的名称。大规模中文跨文本语料库的缺失,阻碍了相关研究工作的开展。鉴于此,本文进行了以下三个方面的研究工作:1.构建一个基于维基百科的中文跨文本指代语料库,并分析了该语料上的跨文本指代现象,为大规模中文跨文 […]