首页

一种基于Simhash的文本快速去重算法 12月27日

【摘要】在万维网中,大多数的网页都是重复的,然而,这些重复的网页对于搜索引擎返回的搜索结果是冗余的,搜索结果大多数不能体现用户查询意图。如果能将这些冗余的搜索结果去重,并实现返回结果按照重复率最大的网页进行排序显示给用户,无疑是一种可以满足用户查询需求的方式,那么,网页去重亟需解决的是使用什么样的技术手段判断网页内容是重复的最重要,如何能够去除相同或者相似的网页可以提高检索效率、降低存储开销。实际 […]