首页

基于DOM结构树和特征词的Web内容提取研究 05月06日

【摘要】伴随着信息技术的飞速发展,互联网上的信息数量已经成爆炸式增长,文本信息的规模正在以指数形式急速扩大。丰富多彩的互联网为人们提供了海量的信息,Web是Internet上最重要的信息来源,且已经成为人们日常生活、工作中不可少的一部分。Web上的信息不仅仅只包含正文信息,还包含许多干扰信息,这样会降低Web信息的可利用性。如何在浩瀚如海的文本信息当中及时地获取有价值的信息,已经成为当今信息获取中 […]